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Beautiful Soup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 . 它 能 够 通过 
你 喜欢 的 转换 器 实现 惯用 的 文档 导航 ,查找 ,修改 文档 的 方式 .Beautiful Soup 会 帮 你 节 
省 数 小 时 甚至 数 天 的 工作 时 间 . 


这 篇 文档 介绍 了 BeautifulSoup4 中 所 有 主要 特性 ,并 切 有 小 例子 .让 我 来 向 你 展示 它 适 
合 做 什么 ,如 何 工作 ,怎样 使 用 ,如 何 达 到 你 想 要 的 效果 ,和 处 理 异常 情况 . 


文档 中 出 现 的 例子 在 Python2.7 和 Python3.2 中 的 执行 结果 相同 


你 可 能 在 寻找 Beautiful Soup3 的 文档 , Beautiful Soup 3 目前 已 经 停止 开发 ,我 们 推 
荐 在 现在 的 项 目 中 使 用 Beautiful Soup 4, 移植 到 BS4 


寻求 帮助 


如 果 你 有 关于 BeautifulSoup 的 问题 ,可 以 发 送 邮 件 到 讨论 组 .如 果 你 的 问题 包含 了 一 
段 需要 转换 的 HTML 代 码 ,那么 确保 你 提 的 问题 描述 中 附带 这 段 HTML 文 档 的 代码 诊 
Br [1] 


Beautiful Soup 4.2.0 


快速 开始 


下 面 的 一 段 HTML 代 码 将 作为 例子 被 多 次 用 到 .这 是 爱丽 给 梦游 仙境 的 的 一 段 内 容 
(以 后 内 容 中 简称 为 爱丽 丝 的 文档 ): 


html doc = """ 

<html><head><title>The Dormouse's story</title></head> 
<body> 

<p class="title"><b>The Dormouse's story</b></p> 


«p class="story">Once upon a time there were three little sisters; 
«a href="http://example.com/elsie" class="sister" id="linki">Elsie< 
«a href="http://example.com/lacie" class="sister" id="link2">Lacie< 
«a href="http://example.com/tillie" class-"sister" id-"link3"»Till: 
and they lived at the bottom of a well.</p> 


«p class="story">...</p> 





= i 


使 用 BeautifulSoup 解 析 这 段 代 码 , 能 够 得 到 一 个 BeautifulSoup 的 对 象 , 并 能 按照 
标准 的 缩 进 格式 的 结构 输出 : 


from bs4 import BeautifulSoup 
soup - BeautifulSoup(html doc) 


print(soup.prettify()) 
# <html> 
<head> 
<title> 
The Dormouse's story 
</title> 
</head> 
<body> 
<p class="title"> 
<b> 
The Dormouse's story 
</b> 
</p> 
<p class="story"> 
Once upon a time there were three little sisters; and their ni 
«a class="sister" href="http://example.com/elsie" id="linki"> 
Elsie 
</a> 


<a class="sister" href="http://example.com/lacie" id="link2"> 
Lacie 
</a> 
and 
«a classz'"sister" href="http://example.com/tillie" id="link2": 
Tillie 
</a> 
; and they lived at the bottom of a well. 
</p> 
<p class="story"> 
</p> 
</body> 
</html> 


TE 
几 个 简单 的 浏览 结构 化 数据 的 方法 : 


dk db dt dt dt dt dk dk dk db db db dt dt dt dt dt db dk db db db db dt dt dt dt dt db dk dt 





soup.title 
# <title>The Dormouse's story</title> 


soup.title.name 
# u'title' 


soup.title.string 
# u'The Dormouse's story' 


soup. title.parent.name 
# u'head' 


soup.p 
# <p class="title"><b>The Dormouse's story</b></p> 


soup.p['class'] 
# u'title' 


soup.a 
# «a class-"sister" href="http://example.com/elsie" id="linki">Els: 


soup. find_all('a') 

# [<a class-"sister" href="http://example.com/elsie" idz"link1"»5El: 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class="Ssister" href="http://example.com/tillie" id="link3">T: 


soup. find(id="link3") 
# «a class="Sister" href="http://example.com/tillie" id="link3">Ti- 


E — %4 
从 文档 中 找到 所 有 <a> 标签 的 链接 





for link in soup.find all('a'): 
print(link.get('href')) 
# http://example.com/elsie 
# http://example.com/lacie 
# http://example.com/tillie 


从 文档 中 获取 所 有 文字 内 容 : 


print(soup.get text()) 


and they lived at the bottom of a well. 


# The Dormouse's story 
# 

# The Dormouse's story 
# 

# Once upon a time there were three little sisters; and their name: 
# Elsie, 

# Lacie and 

# Tillie; 

# 

# 

T 





这 是 你 想 要 的 吗 ? 别 着 急 , 还 有 更 好 用 的 


安装 Beautiful Soup 


如 果 你 用 的 是 新 版 的 Debain 或 ubuntu, 那 么 可 以 通过 系统 的 软件 包 管 理 来 安装 : 
$ apt-get install Python-bs4 


Beautiful Soup 4 通过 PyPi 发 布 ,所 以 如 果 你 无 法 使 用 系统 包 管 理 安 装 ,那么 也 可 以 通 
过 easy install 或 pip 来 安装 . 包 的 名 字 是 beautifulsoup4 ,这 个 包 兼 容 
Python2 和 Python3. 


$ easy install beautifulsoup4 


$ pip install beautifulsoup4 


(在 PyPi 中 还 有 一 个 名 字 是 BeautifulSoup 的 包 , 但 那 可 能 不 是 你 想 要 的 , 那 是 
Beautiful Soup3 的 发 布 版 本 ,因为 很 多 项 目 还 在 使 用 BS3, 所 以 _ BeautifulSoup 
包 依 然 有 效 .但 是 如 果 你 在 编写 新 项 目 ,那么 你 应 该 安装 的 beautifulsoup4 ) 


如 果 你 没有 安装 easy_install 3 pip , 那 你 也 可 以 下 载 BS4 的 源码 ,然后 通过 
setup.py 来 安装 . 
$ Python setup.py install 


如 果 上 述 安装 方法 都 行 不 通 , Beautiful Soup 的 发 布 协议 允许 你 将 BS4 的 代码 打包 在 
你 的 项 目 中 ,这 样 无须 安 装 即 可 使 用 . 


作者 在 Python2.7 和 Python3.2 的 版 本 下 开发 Beautiful Soup, 理论 上 Beautiful Soup 
应 该 在 所 有 当前 的 Python 版 本 中 正常 工作 


安装 完成 后 的 问题 
Beautiful Soup 发 布 时 打包 成 Python2 版 本 的 代码 ,在 Python3 环 境 下 安装 时 ,会 自动 转 
换 成 Python3 的 代码 ,如 果 没 有 一 个 安装 的 过 程 ,那么 代码 就 不 会 被 转换 . 


如 果 代 码 抛 出 了  ImportError 的 异常 : "No module named HTMLParser", 这 是 因 
为 你 在 Python3 版 本 中 执行 Python2 版 本 的 代码 ，. 


如 果 代 码 抛 出 了 ImportError 的 异常 : "No module named html.parser", 这 是 因 
为 你 在 Python2 版 本 中 执行 Python3 版 本 的 代码 . 


如 果 遇 到 上 述 2 种 情况 ,最 好 的 解决 方法 是 重新 安装 BeautifulSoup4. 


如 果 在 ROOT TAG NAME = uU[documentj' 代 码 处 遇 到 SyntaxError “Invalid 
syntax" 错 误 , 需 要 将 把 BS4 的 Python 代码 版 本 从 Python2 转 换 到 Python3. 可 以 重新 安 
装 BS4: 


$ Python3 setup.py install 
或 在 bs4 的 目录 中 执行 Python 代码 版 本 转换 脚本 


$ 2to3-3.2 -w bs4 


安装 解析 器 
Beautiful Soup 支 持 Python 标准 库 中 的 HTML 解 析 器 ,还 支持 一 些 第 三 方 的 解析 器 ,其 
中 一 个 是 xml .根据 操作 系统 不 同 , 可 以 选择 下 列 方法 来 安装 |xml: 

$ apt-get install Python-1xml 

$ easy install lxml 

$ pip install lxml 


另 一 个 可 供 选择 的 解析 器 是 纯 Python 实 现 的 html5lib , html5lib 的 解析 方式 与 浏览 器 
相同 ,可 以 选择 下 列 方法 来 安装 html5lib: 


$ apt-get install Python-html5lib 
$ easy install html5lib 


$ pip install html5lib 
下 表 列 出 了 主要 的 解析 器 ,以 及 它们 的 优 缺点 : 


Python 
标准 库 


Ixml 
HTML 
解析 器 


Ixml 
XML f 
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html5lib 


使 用 方法 


BeautifulSoup(markup, 


BeautifulSoup(markup, 


BeautifulSoup(markup, 
BeautifulSoup(markup, 


BeautifulSoup(markup, 


"html.parser") 
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推荐 使 用 |xml 作 为 解析 器 ,因为 效率 更 高 . 在 Python2.7.3 之 前 的 版 本 和 Python3 中 
3.2.2 之 前 的 版 本 ,必须 安装 Ixml 或 html5lib, 因为 那些 Python 版 本 的 标准 库 中 内 置 的 
HTML 解 析 方 法 不 够 稳定 . 


提示 : 如 果 一 段 HTML 或 XML 文 档 格 式 不 正确 的 话 ,那么 在 不 同 的 解析 器 中 返 


果 可 能 是 不 一 样 的 ,查看 解析 器 之 问 的 区 别 了 解 更 多 细节 


回 的 结 


如 何 使 用 


将 一 段 文档 传 入 BeautifulSoup 的 构造 方法 ,就 能 得 到 一 个 文档 的 对 象 , 可 以 传 入 一 段 
字符 串 或 一 个 文件 句柄 . 


from bs4 import BeautifulSoup 
soup - BeautifulSoup(open("index.html")) 


soup = BeautifulSoup("<html>data</htm1>" ) 


首先 ,文档 被 转换 成 Unicode, 并 且 HTML 的 实例 都 被 转换 成 Unicode 编 码 


BeautifulSoup("Sacr&eacute; bleu!") 
<html><head></head><body>Sacré bleu!</body></html> 


然后 , Beautiful Soup 选 择 最 合适 的 解析 器 来 解析 这 段 文档 ,如 果 手 动 指定 解析 器 那么 
Beautiful Soup 会 选择 指定 的 解析 器 来 解析 文档 .( 参 考 解析 成 XML ). 
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Beautiful Soup 将 复杂 HTML 文 档 转 换 成 一 个 复杂 的 树 形 结构 ,每 个 节点 都 是 Python 
对 象 , 所 有 对 象 可 以 归纳 为 4 种 : Tag , NavigableString , BeautifulSoup , 
Comment 

Tag 

Tag 对 象 与 XML 或 HTML 原 生 文档 中 的 tag 相 同 : 


soup = BeautifulSoup('«b class="boldest">Extremely bold</b>' ) 
tag - soup.b 

type(tag) 

# «class 'bs4.element.Tag'> 


Tag 有 很 多 方法 和 属性 ,在 遍历 文档 树 和 搜索 文档 树 中 有 详细 解释 .现在 介绍 一 下 
tag 中 最 重要 的 属性 : name 和 attributes 


Name 
每 个 tag 都 有 自己 的 名 字 , 通 过 ,name 来 获取 : 
tag .name 
# u'b' 
如 果 改 变 了 tag 的 name, 那 将 影响 所 有 通过 当前 Beautiful Soups $ Æ 3 & 9 HTML xc 
B: 


tag.name = "blockquote" 
tag 
# «blockquote class="boldest">Extremely bold</blockquote> 


Attributes 


一 个 tag 可 能 有 很 多 个 属性 .tag «b class="boldest"> 有 一 个 “class” 的 属性 , 值 
A “boldest” .tag 的 属性 的 操作 方法 与 字典 相同 : 


tag['class'] 
# u'boldest' 


也 可 以 直接 "点 " 取 属 性 , 比如 : ,attrs 


tag.attrs 
# (u'class': u'boldest'} 


tag 的 属性 可 以 被 添加 ,删除 或 修改 . 再 说 一 次 , tag 的 属性 操作 方法 与 字典 一 样 


tag['class'] = 'verybold' 

tag['id'] = 1 

tag 

# <blockquote class="verybold" id="1">Extremely bold</blockquote> 


del tag['class'] 

del tag['id'] 

tag 

# <blockquote>Extremely bold</blockquote> 


tag['class'] 

4 KeyError: 'class' 
print(tag.get('class')) 
# None 


g— ———————] Y) 
多 值 属性 


HTML 4 定义 了 一 系列 可 以 包含 多 个 值 的 属性 .在 HTML5 中 移 除 了 一 些 , 却 增加 更 多 . 
最 常见 的 多 值 的 属性 是 class (一 个 tag 可 以 有 多 个 CSS 的 class). 还 有 一 些 属性 

rel , rev , accept-charset , headers , accesskey .在 Beautiful Soup 
中 多 值 属 性 的 返回 类 型 是 list: 


css soup = BeautifulSoup('«p class="body strikeout"></p>' ) 
css soup.p['class'] 
# ["body", "strikeout"] 


css soup = BeautifulSoup('«p class="body"></p>' ) 
css soup.p['class'] 
# ["body"] 


如 果 某 个 属性 看 起 来 好 像 有 多 个 值 ,但 在 任何 版 本 的 HTML 定 义 中 都 没有 被 定义 为 多 
值 属性 ,那么 Beautiful Soup 会 将 这 个 属性 作为 字符 串 返 回 


id soup = BeautifulSoup('«p id="my id"></p>') 
id soup.p['id'] 
# 'my id' 


将 tag 转 换 成 字符 串 时 ,多 值 属性 会 合并 为 一 个 值 


rel soup = BeautifulSoup('<p>Back to the «a rel="index">homepage</t 
rel soup.a['rel'] 

# ['index'] 

rel soup.a['rel'] = ['index', 'contents'] 


print(rel soup.p) 
# <p>Back to the «a rel="index contents">homepage</a></p> 


«| 一 一 








如 果 转 换 的 文档 是 XML 格式 ,那么 tag 中 不 包含 多 值 属性 


xml soup = BeautifulSoup('«p class="body strikeout"></p>', 'xml') 


xml soup.p['class'] 
# u'body strikeout' 


| 


可 以 遍历 的 字符 串 


字符 串 常 被 包含 在 tag 内 .Beautiful Soup 用 Navigablestring 类 来 包装 tag 中 的 字 
符 串 : 


tag.string 

# u'Extremely bold' 

type(tag.string) 

# «class 'bs4.element.NavigableString'> 


一 个 Navigablestring 字符 串 与 Python 中 的 Unicode 字 符 串 相同 ,并 且 还 支持 包 
4E 遍历 文档 树 和 搜索 文档 树 中 的 一 些 特性 , 通过 unicode() 方法 可 以 直接 将 
Navigablestring 对 象 转换 成 Unicode 字 符 串 : 


unicode string = unicode(tag.string) 
unicode string 

# u'Extremely bold' 

type(unicode string) 

# «type 'unicode'» 


tag 中 包含 的 字符 串 不 能 编辑 ,但 是 可 以 被 蔡 换 成 其 它 的 字符 串 , 用 replace. with() 方 


tag.string.replace with("No longer bold") 


tag 
# <blockquote>No longer bold</blockquote> 


Navigablestring 对 象 支持 遍历 文档 树 和 搜索 文档 树 中 定义 的 大 部 分 属性 , 并 
非 全 部 .尤其 是 ,一 个 字符 串 不 能 包含 其 它 内 容 (tag 能 够 包含 字符 串 或 是 其 它 tag), 字 符 
串 不 支持 .contents 或 .string 属性 或 find() 方法 . 


如 果 想 在 Beautiful Soup 之 外 使 用 NavigableString 对 象 ,需要 调用 
unicode() 方法 ,将 该 对 象 转换 成 普通 的 Unicode 字 符 串 ,否则 就 算 Beautiful Soup 
已 方法 已 经 执行 结束 ,该 对 象 的 输出 也 会 带 有 对 象 的 引用 地 址 .这 样 会 浪费 内 存 . 


BeautifulSoup 


BeautifulSoup 对 象 表示 的 是 一 个 文档 的 全 部 内 容 . 大 部 分 时 候 , 可 以 把 它 当 作 
Tag 对 象 , 它 支持 遍历 文档 树 和 搜索 文档 树 中 描述 的 大 部 分 的 方法 . 


为 BeautifulSoup 对 象 并 不 是 丨 正 的 HTML 或 XML 的 tag, 所 以 它 没有 name 和 
attribute 属 性 .但 有 时 查看 它 的 .name 属性 是 很 方便 的 ,所 以 BeautifulSoup 对 
象 包含 了 一 个 值 为 “[documentj” 的 特殊 属性 .name 


soup.name 
# u'[document]' 


注释 及 特殊 字符 串 


Tag , Navigablestring , BeautifulSoup 几乎 履 盖 了 html 和 xml 中 的 所 有 内 
容 ,但 是 还 有 一 些 特殊 对 象 .容易 让 人 担心 的 内 容 是 文档 的 注释 部 分 : 


markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>" 
soup = BeautifulSoup(markup) 

comment = soup.b.string 

type (comment ) 

# «class 'bs4.element.Comment '> 


Comment 对 象 是 一 个 特殊 类 型 的 NavigableString 对 象 : 


comment 
# u'Hey, buddy. Want to buy a used parser' 


但 是 当 它 出 现在 HTML 文 档 中 时 ，Comment 对 象 会 使 用 特殊 的 格式 输出 : 


print(soup.b.prettify()) 

# <b> 

# <!--Hey, buddy. Want to buy a used parser?--> 
# </b> 


Beautiful Soup 中 定义 的 其 它 类 型 都 可 能 会 出 现在 XML 的 文档 中 : CData , 
ProcessingInstruction , Declaration , Doctype .与 Comment 对 象 类 
似 ,这 些 类 都 是 Navigablestring 的 子 类 ,只 是 添加 了 一 些 额 外 的 方法 的 字符 串 独 
享 .下 面 是 用 CDATA 来 替代 注释 的 例子 : 


from bs4 import CData 
cdata = CData("A CDATA block") 
comment.replace with(cdata) 


print(soup.b.prettify()) 

# <b> 

4 <![CDATA[A CDATA block] ]> 
# </b> 


遍历 文档 树 
拿 "爱丽 丝 梦 游 仙境 "的 文档 来 做 例子 : 


html doc = """ 
<html><head><title>The Dormouse's story</title></head> 


<p class="title"><b>The Dormouse's story</b></p> 


<p class="story">Once upon a time there were three little sisters; 
<a href="http://example.com/elsie" class="sister" id="linki">Elsie< 
<a href="http://example.com/lacie" class="sister" id="link2">Lacie< 
«a href="http://example.com/tillie" class-"sister" id-"link3"»Till: 
and they lived at the bottom of a well.</p> 


«p class="story">...</p> 


from bs4 import BeautifulSoup 
soup - BeautifulSoup(html doc) 


HE 
通过 这 上 段 例 子 来 演示 怎样 从 文档 的 一 段 内 容 找到 另 一 段 内 容 





一 个 Tag 可 能 包含 多 个 字符 串 或 其 E TIg AE AE SGT Tg S Boal 
Soup 提 供 了 许多 操作 和 遍历 子 节点 的 属性 . 


注意 : Beautiful Soup 中 字符 串 节点 不 支持 这 些 属 性 ,因为 字符 串 没有 子 节点 


tag 的 名 字 


操作 文档 树 最 简单 的 方法 就 是 告诉 它 你 想 获取 的 tag 的 name. 如 果 想 获取 <head> 
标签 ,只 要 用 soup.head 


soup.head 
# <head><title>The Dormouse's story</title></head> 


soup.title 
# <title>The Dormouse's story</title> 


这 是 个 获取 tag 的 小 窍门 ,可 以 在 文档 树 的 tag 中 多 次 调用 这 个 方法 .下 面 的 代码 可 以 获 
取 <body> AR É—A4 b» dx 


soup.body.b 
# <b>The Dormouse's story</b> 


看 过 点 取 属 性 的 方式 只 能 获得 当前 名 字 的 第 一 个 tag: 


soup.a 
# «a class-"sister" href="http://example.com/elsie" id="linki">Els: 





‘| 


如 果 想 要 得 到 所 有 的 <a> 标签 ,或 是 通过 名 字 得 到 比 一 个 tag 更 多 的 内 容 的 时 候 , 就 
需要 用 到 searching the tree 中 描述 的 方法 ,比如 :find_all() 





soup.find all('a') 

# [<a class-"sister" href="http://example.com/elsie" id-"linki1"»El: 
4 <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class="sister" href="http://example.com/tillie" id="link3">T: 
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.contents 和 .children 





tag 的 .contents 属性 可 以 将 tag 的 子 节点 以 列表 的 方式 输出 : 


head tag = soup.head 
head tag 
# <head><title>The Dormouse's story</title></head> 


head_tag.contents 
[<title>The Dormouse's story</title>] 


title tag = head_tag.contents[0] 
title_tag 

# <title>The Dormouse's story</title> 
title_tag.contents 

# [u'The Dormouse's story' ] 


日 


BeautifulSoup 对 象 本 身 一 定 会 包含 子 节点 ,也 就 是 说 «html» 标签 也 是 
BeautifulSoup 对 象 的 子 节点 : 


len(soup.contents) 


# 1 
soup.contents[0].name 
# u'html' 


字符 串 没 有 contents 属性 ,因为 字符 串 没 有 子 节点 : 


text = title tag.contents[0] 
text.contents 
# AttributeError: 'NavigableString' object has no attribute 'conter 








ol 


通过 tag 的 .children 生成 器 ,可 以 对 tag 的 子 节点 进行 循环 : 





for child in title tag.children: 
print(child) 
# The Dormouse's story 


.descendants 


.contents 和 .children 属性 仅 包 含 tag 的 直接 子 节 点 .例如 ，<head> 标签 只 
有 一 个 直接 子 节点 <title> 


head tag.contents 
# [<title>The Dormouse's story</title>] 


但 是 «title» 标签 也 包含 一 个 子 节点 :字符 串 “The Dormouse's story”, 这 种 情况 下 
Fi P “The Dormouse's story” 也 属于 «head» 标签 的 子孙 节点 . .descendants 
属性 可 以 对 所 有 tag 的 子孙 节点 进行 递归 循环 [5] : 


for child in head tag.descendants: 
print(child) 
# <title>The Dormouse's story</title> 
# The Dormouse's story 


上 面 的 例子 中 ，<head> 标签 只 有 一 个 子 节 点 ,但 是 有 2 个 子孙 节点 : <head> 节点 
和 «head» 的 子 节点 ，BeautifulSoup 有 一 个 直接 子 节点 ( «html» 节点 ), 却 有 很 
多 子孙 节点 : 


len(list(soup.children)) 
41 
len(list(soup.descendants)) 
# 25 


String 


如 果 tag 只 有 一 个 NavigableString 类 型 子 节点 ,那么 这 个 tag 可 以 使 用 
.String 得 到 子 节点 : 


title tag.string 
# u'The Dormouse's story' 


如 果 一 个 tag 仅 有 一 个 子 节点 ,那么 这 个 tag 也 可 以 使 用 string 方法 ,输出 结果 与 
当前 唯一 子 节点 的 .string 结果 相同 : 


head tag.contents 
# [<title>The Dormouse's story</title>] 


head_tag.string 
# u'The Dormouse's story' 


如 果 tag 包 含 了 多 个 子 节点 ,tag 就 无 法 确定 .string 方法 应 该 调用 哪个 子 节点 的 
内 容 ， .string 的 输出 结果 是 None 


print(soup.html.string) 
# None 


.strings 和 stripped strings 


如 果 tag 中 包含 多 个 字符 囊 [2] ,可 以 使 用 .strings 来 循环 获取 : 


for string in soup.strings: 
print(repr(string)) 
u"The Dormouse's story" 
u'\n\n' 
u"The Dormouse's story" 
u'\n\n' 
u'Once upon a time there were three little sisters; and theii 
u'Elsie' 
um 
u'Lacie' 
u' and\n' 
u'Tillie' 
u';Nnand they lived at the bottom of a well.' 
u'\n\n' 


# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 





for string in soup.stripped strings: 
print(repr(string)) 

u"The Dormouse's story" 

u"The Dormouse's story" 

u'Once upon a time there were three little sisters; and thei! 

u'Elsie' 

ino 

u'Lacie' 

u'and' 

u'Tillie' 

u';Nnand they lived at the bottom of a well.' 

u' I 


dk db dk dt dt dt dk dk dk dt 





继续 分 析 文 档 树 ,每 个 tag 或 字符 串 都 有 父 节 点 :被 包含 在 某 个 tag 中 
.parent 
通过 parent 属性 来 获取 某 个 元 素 的 父 节点 .在 例子 “爱丽 丝 ?的 文档 中 , 标签 是 


title tag = soup.title 

title tag 

# <title>The Dormouse's story</title> 

title tag.parent 

# <head><title>The Dormouse's story</title></head> 


文档 title 的 字符 串 也 有 父 节点 : <title> 标签 


title tag.string.parent 
# <title>The Dormouse's story</title> 


文档 的 顶层 节点 比如 <html> 的 父 节点 是 BeautifulSoup 对 象 : 


html tag = soup.html 
type(html tag.parent) 
# «class 'bs4.BeautifulSoup'> 


BeautifulSoup 对 象 的 .parent 是 None: 


print(soup.parent) 
# None 


.parents 


通过 元 素 的 .parents 属性 可 以 递归 得 到 元 素 的 所 有 父 华 节点 ,下 面 的 例子 使 用 了 
.parents 方法 遍历 了 «a» 标签 到 根 节点 的 所 有 节点 . 


link = soup.a 
link 
4 «a class-"sister" href="http://example.com/elsie" id="linki">Els: 
for parent in link.parents: 
if parent is None: 
print(parent) 
else: 
print(parent.name) 
# p 
# body 
# html 
# [document] 
# None 
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兄弟 节点 
看 一 段 简单 的 例子 : 


sibling soup = BeautifulSoup("<a><b>text1</b><c>text2</c></b></a>"" 
print(sibling soup.prettify()) 
# «html» 
«body» 
«a» 
«b» 
text1 
</b> 
«c» 
text2 
«/c» 
</a> 
</body> 
</html> 


dk : dk dt dt dt dt db dk Gk Gk 





因为 «b» 标签 和 «c» 标签 是 同一 层 : 他 们 是 同一 个 元 素 的 子 节点 ,所 
VA «b» 和 «c» 可 以 被 称 为 兄弟 节点 .一 段 文档 以 标准 格式 输出 时 ,兄弟 节点 有 相同 
的 缩 进 级 别 .在 代码 中 也 可 以 使 用 这 种 关系 . 


.next sibling 和 .previous sibling 


在 文档 树 中 ,使 用 .next sibling 和 .previous sibling 属性 来 查询 兄弟 节 


INN 


sibling soup.b.next sibling 
# <c>text2</c> 


sibling soup.c.previous sibling 
# «b»texti«/b» 


«b» AX .next sibling 属性 ,但 是 没有 .previous sibling 属性 , 因 
为 «b» 标签 在 同 级 节点 中 是 第 一 个 . 同 理 ，<c> 标签 有 .previous_sibling Æ 
性 , 却 没有 .next_sibling 属性 : 


print(sibling soup.b.previous sibling) 
# None 

print(sibling soup.c.next sibling) 

# None 


例子 中 的 字符 串 “text1”" 和 “text2” 不 是 兄弟 节点 ,因为 它们 的 父 节 点 不 同 : 


sibling soup.b.string 
4 u'text1' 


print(sibling soup.b.string.next sibling) 
# None 


实际 文档 中 的 tag 的 .next sibling 和 .previous sibling 属性 通常 是 字符 
串 或 空白 . 看 看 “爱丽 丝 "文档 : 


«a href="http://example.com/elsie" class="sister" id="linki">Elsie< 
<a href="http://example.com/lacie" class="sister" id="link2">Lacie< 
<a href="http://example.com/tillie" class-"sister" id="link3">Till: 


JE EN 


如 果 以 为 第 一 个 <a> 标签 的 .next sibling 结果 是 第 二 个 «a» 标签 , 那 就 错 
了 ,站 实 结果 是 第 一 个 «a» 标签 和 第 二 个 c A xau M 





link = soup.a 
link 
# <a class-'sister" href="http://example.com/elsie" id-"link1"»Els: 


link.next_sibling 
# u',\n' 
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第 二 个 «a» 标签 是 顿 号 的 .next sibling 属性 : 


link.next sibling.next sibling 
# «a class-"sister" href="http://example.com/lacie" id="link2">Lac: 


UEO O 





.next siblings 和 .previous siblings 


通过 .next siblings 和 .previous siblings 属性 可 以 对 当前 节点 的 兄弟 节 
点 迭代 输出 : 


for sibling in soup.a.next siblings: 


print(repr(sibling)) 

# u',Nn' 

# «a class-"sister" href="http://example.com/lacie" id="link2": 
# u' and\n' 

# «a class="Ssister" href="http://example.com/tillie" id="link3' 
# u'; and they lived at the bottom of a well.' 

# None 


for sibling in soup.find(id-"link3").previous siblings: 
print(repr(sibling)) 

# ' and\n' 

# «a class-"sister" href="http://example.com/lacie" id="link2": 

# u',\n' 

# «a class-"sister" href="http://example.com/elsie" id="linki": 

# u'Once upon a time there were three little sisters; and thei) 

# None 





回 退 和 前 进 
看 一 下 “爱丽 丝 ” 文 档 : 


<html><head><title>The Dormouse's story</title></head> 
<p class="title"><b>The Dormouse's story</b></p> 


gatas 把 这 段 字 符 串 转换 成 一 连 串 的 事件 : “打开 «html» 标签 ”打开 一 
个 «head» 标签 "” 打 开 一 个 «title» 标签 ”? 添 加 一 段 字 符 串 ”” 关 闭 «title» 标 
A ITI «p» 标签 ", 等 等 .Beautiful Soup 提 供 了 重 现 解 析 器 初始 化 过 程 的 方法 . 


.hext_ element 和 .previous element 

.next element 属性 指向 解析 过 程 中 下 一 个 被 解析 的 对 象 (字符 串 或 tag), 结 果 可 
能 与 .next sibling 相同 ,但 通常 是 不 一 样 的 . 
这 是 “爱丽 丝 "文档 中 最 后 一 个 «a» 标签 , 它 的 .next sibling 结果 是 一 个 字符 
串 ,因为 当前 的 解析 过 程 [2] 因为 当前 的 解析 过 BAARIT ca» 标签 而 中 断 了 : 


last a tag = soup.find("a", id="link3") 
last a tag 
# «a class-"sister" href="http://example.com/tillie" id="link3">Ti- 


last_a_tag.next_sibling 
4 '; and they lived at the bottom of a well.' 


Hmc ——— BÉ À— É— À——  d———— (1 


但 这 个 «a» 标签 的 .next _element 属性 结果 是 在 <a> 标签 被 解析 之 后 的 解析 
内 容 , 不 是 <a> 标签 后 的 句子 部 分 ,应 该 是 字符 串 ”Tillie” 





last a tag.next element 
# u'Tillie' 


这 是 因为 在 原始 文档 中 ,字符 串 “Tillie” 在 分 号 前 出 现 ,解析 器 先进 入 <a> 标签 ,然后 
是 字符 囊 “Tillie”, 然 后 关闭 </a> 标签 ,然后 是 分 号 和 剩余 部 分 .分 号 与 «a» 标签 在 同 
一 层级 ,但 是 字符 串 “Tillie” 会 被 先 解析 . 


.previous element 属性 刚好 与 .next_element 相反 , 它 指向 当前 被 解析 的 对 
象 的 前 一 个 解析 对 象 : 


dox 
4 


last_a_tag.previous_element 

# u' and\n' 

last_a_tag.previous_element.next_element 

# <a class-"sister" href="http://example.com/tillie" id="link3">Ti: 
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next elements 和 .previous elements 


通过 ,.next elements 和 .previous elements 的 迭代 器 就 可 以 向 前 或 向 后 
问 文档 的 解析 内 容 ,就 好 像 文档 正在 被 解析 一 样 : 


for element in last a tag.next elements: 
print(repr(element)) 

u'Tillie' 

u';Nnand they lived at the bottom of a well.' 

u'\n\n' 

<p class="story">...</p> 

Ure tee! 

u'\n' 

None 


EHEHEH 


搜索 文档 树 

Beautiful Soup 定 义 了 很 多 搜索 方法 ,这 里 着 重 介绍 2 个 : find() 和 find all() 
.其 它 方法 的 参数 和 用 法 类 似 ,请 读者 举一反三 ， 

再 以 “爱丽 丝 "文档 作为 例子 : 


html doc = """ 
<html><head><title>The Dormouse's story</title></head> 


<p class="title"><b>The Dormouse's story</b></p> 


<p class="story">Once upon a time there were three little sisters; 
«a href="http://example.com/elsie" class="sister" id="linki">Elsie< 
«a href="http://example.com/lacie" class="sister" id="link2">Lacie< 
«a href="http://example.com/tillie" class-"sister" id="link3">Till: 
and they lived at the bottom of a well.</p> 


<p class="story">...</p> 


from bs4 import BeautifulSoup 
soup = BeautifulSoup(html doc) 


OES E O O 
使 用 find all() 类 似 的 方法 可 以 查找 到 想 要 查找 的 文档 内 容 





介绍 find all() 方法 前 , 先 介绍 一 下 过 滤器 的 类 型 [3] ,这 些 过 滤器 贯穿 整个 搜索 
的 API. 过 滤器 可 以 被 用 在 tag 的 name 中 ,节点 的 属性 中 ,字符 串 中 或 他 们 的 ; 
字符 串 


最 简单 的 过 滤器 是 字符 串 . 在 搜索 方法 中 传 入 一 个 字符 串 参 数 ,Beautiful Soup 会 查找 
与 字符 串 完 整 匹配 的 内 容 , 下 面 的 例子 用 于 查找 文档 中 所 有 的 <b> 标签 : 


soup.find all('b') 
# [<b>The Dormouse's story</b>] 


如 果 传 入 字 节 码 参 数 , Beautiful Soup 会 当 作 UTF-8 编 码 ,可 以 传 入 一 段 Unicode 编码 
来 避免 Beautiful Soup 解 析 编 码 出 错 


正则 表达 式 


如 果 传 入 正则 表达 式 作为 参数 ,Beautiful Soup 会 通过 正则 表达 式 的 match() KZ 
配 内 容 .下 面 例子 中 找 出 所 有 以 b 开 头 的 标签 ,这 表示 <body> 和 «b» 标签 都 应 该 被 
找到 : 


import re 
for tag in soup.find all(re.compile("^b")): 
print(tag.name) 


& b 
# b 
下 面 代码 找 出 所 有 名 字 中 包含 "了 "的 标签 ; 


for tag in soup.find all(re.compile("t")): 
print(tag.name) 

# html 

# title 


列表 


如 果 传 入 列表 参数 , Beautiful Soup 会 将 与 列表 中 任 一 元 素 匹 配 的 内 容 返回 .下 面 代 码 
找到 文档 中 所 有 <a> 标签 和 <b> 标签 : 


soup.find all(["a", "b"]) 

# [<b>The Dormouse's story</b>, 

# <a class-'"sister" href="http://example.com/elsie" id="link1">El: 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


mi — : 





True 


True 可 以 匹配 任何 值 , 下 面 代码 查找 到 所 有 的 tag, 但 是 不 会 返回 字符 串 节点 


for tag in soup.find all(True): 
print(tag.name) 

html 

head 

title 

body 


dk db dk dt dt dt dt dk dk Gk dt 
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方法 

如 果 没有 合适 过 滤器 ,那么 还 可 以 定义 一 个 方法 ,方法 只 接受 一 个 元 素 参 数 [4] ,如 果 
这 个 方法 返回 True 表示 当前 元 素 匹 配 并 且 被 找到 ,如 果 不 是 则 反 回 False 

下 面 方 法 校 验 了 当前 元 素 ,如 果 和 包含 class 属性 却 不 包含 id 属性 ,那么 将 返回 


True : 


def has class but no id(tag): 
return tag.has attr('class') and not tag.has attr('id') 


将 这 个 方法 作为 参数 传 入 find_all() 方法 ,将 得 到 所 有 <p> 标签 : 


soup.find all(has class but no id) 

# [<p class="title"><b>The Dormouse's story</b></p>, 

# <p class="story">Once upon a time there were...</p>, 
# <p class="Story">...</p>] 


结果 中 只 有 <p> 标签 没有 «a» 标签 ,因为 «a» 标签 还 定义 了 ”id”, 没 有 返 
WEE 和 «head» ,因为 «html» 和 «head» 中 没有 定义 "class” 属 性 . 


下 面 代 码 找 到 所 有 被 文字 包含 的 节点 内 容 : 


from bs4 import NavigableString 
def surrounded by strings(tag): 
return (isinstance(tag.next element, NavigableString) 
and isinstance(tag.previous element, NavigableString)) 


for tag in soup.find all(surrounded by strings): 
print tag.name 


现在 来 了 解 一 下 搜索 方法 的 细节 


find all() 


find all( name , attrs , recursive , text , **kwargs ) 


find all() 方法 搜索 当前 tag 的 所 有 tag 子 节点 ,并 判断 是 否 符合 过 滤器 的 条 件 . 这 
里 有 几 个 例子 : 


soup.find all("title") 
# [<title>The Dormouse's story</title>] 


soup.find_all("p", "title") 
# [<p class="title"><b>The Dormouse's story</b></p>] 


soup. find_all("a") 

# [<a class="sister" href="http://example.com/elsie" id="link1">El: 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
4 <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


soup. find_all(id="link2") 
# [<a class-'"sister" href="http://example.com/lacie" id="link2">Lac¢ 


import re 
soup. find(text=re.compile("sisters") ) 
# u'Once upon a time there were three little sisters; and their nar 





有 几 个 方法 很 相似 ,还 有 几 个 方法 是 新 的 ,参数 中 的 text 和 id 是 什么 含义 ?为 
什么 find all("p", "title") 返回 的 是 CSS Class 为 "title” 的 «p» 标签 ? 我 们 
来 仔细 看 一 下 find all() 的 参数 


name 参数 


name 参数 可 以 查找 所 有 名 字 为 name 的 tag, 字 符 串 对 象 会 被 自动 忽略 掉 . 
简单 的 用 法 如 下 


soup.find all("title") 
# [<title>The Dormouse's story</title>] 


重申 : 搜索 name 参数 的 值 可 以 使 任 一 类 型 的 过 滤器 ,字符 窜 , 正 则 表达 式 , 列 表 , 方 
法 或 是 True 


keyword 参数 


如 果 一 个 指定 名 字 的 参数 不 是 搜索 内 置 的 参数 名 ,搜索 时 会 把 该 参数 当 作 指定 
tag 的 属性 来 搜索 ,如 果 包 含 一 个 名 字 为 id 的 参数 ,Beautiful sae pases 
的 "id" 属 性 . 


soup.find all(id-'link2') 
# [<a class-"sister" href="http://example.com/lacie" idz"link2"»La« 





如 果 传 入 href 参数 , Beautiful Soup 会 搜索 每 个 tag 的 ”href' 属 性 : 


soup.find all(href-re.compile("elsie")) 
# [<a class-"sister" href="http://example.com/elsie" id-'"link1"»El: 





搜索 指定 名 字 的 属性 时 可 以 使 用 的 参数 值 包 括 字符 串 ,正则 表达 式 ,列表 , True. 
下 面 的 例子 在 文档 树 中 查找 所 有 包含 id 属性 的 tag, 无 论 id 的 值 是 什么 


soup.find all(id-True) 

# [<a class-"sister" href="http://example.com/elsie" id="Linki">El; 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 





使 用 多 个 指定 名 字 的 参数 可 以 同时 过 滤 tag 的 多 个 属性 : 


soup.find all(href-re.compile("elsie"), id='link1' ) 
# [<a class-"sister" href="http://example.com/elsie" idz"linki"»thi 
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有 些 tag 属 性 在 搜索 不 能 使 用 ,比如 HTML5 中 的 data-* 属性 : 


data soup = BeautifulSoup('foo!') 
data soup.find all(data-foo-"value") 
# SyntaxError: keyword can't be an expression 


但 是 可 以 通过 find all() 方法 的 attrs 参数 定义 一 个 字典 参数 来 搜索 包含 特 
殊 属 性 的 tag: 


data_soup.find_all(attrs={"data-foo": "value"}) 
# [foo!] 


按 CSS 搜 索 


按照 CSS 类 名 搜索 tag 的 功能 非常 实用 ,但 标识 CSS 类 名 的 关键 字 class 在 Python 
中 是 保留 字 , 使 用 class 做 参数 会 导致 语法 错误 .从 Beautiful Soup 的 4.1.1 版 本 开 
始 , 可 以 通过 class ”参数 搜索 有 指定 CSS 类 名 的 tag: 


soup.find all("a", class -'sister") 

# [<a class-"sister" href="http://example.com/elsie" id="Linki">Els 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


LINE ~ 


class 参数 同样 接受 不 同类 型 的 过 滤器 ,字符 串 , 正 则 表达 式 , 方 法 或 True 





soup.find all(class -re.compile("itl")) 
# [<p class="title"><b>The Dormouse's story</b></p>] 


def has_six_characters(css_class): 
return css_class is not None and len(css_class) == 


soup.find all(class -has six characters) 

# [<a class-"sister" href="http://example.com/elsie" id-'"linki1"-El: 
# <a class="Sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


D — NSQNE DNA 


tag 的 class 属性 是 多 值 属性 .按照 CSS 类 名 搜索 tag 时 ,可 以 分 别 搜索 tag 中 的 每 
个 CSS 类 名 : 





css soup = BeautifulSoup('«p class="body strikeout"></p>' ) 
css soup.find all("p", class -'strikeout") 
# [<p class-"body strikeout"></p>] 


css_soup.find_all("p", class_="body") 


# [<p class="body strikeout"></p>] 


搜索 class 属性 时 也 可 以 通过 CSS 值 完全 匹配 : 


css soup.find all("p", class -"body strikeout") 
# [<p class-"body strikeout"></p>] 


完全 匹配 class 的 值 时 ,如 果 CSS 类 名 的 顺序 与 实际 不 符 ,将 搜索 不 到 结果 : 


soup.find all("a", attrs={"class": "sister"}) 
# [<a class-"sister" href="http://example.com/elsie" id="]ink1">El: 
# <a class="sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


eh 





text X 


通过 text 参数 可 以 搜 搜 文档 中 的 字符 串 内 容 .与 name 参数 的 可 选 值 一 样 ， 
text 参数 接受 字符 串 ,正则 表达 式 ,列表 , True. 看 例子 : 


soup.find all(text-"Elsie") 
# [u'Elsie'] 


soup.find all(text-["Tillie", "Elsie", "Lacie"]) 
# [u'Elsie', u'Lacie', u'Tillie'] 


soup.find all(text-zre.compile("Dormouse")) 
[u"The Dormouse's story", u"The Dormouse's story"] 


def is the only string within a tag(s): 
""Return True if this string is the only child of its parent t: 
return (s == s.parent.string) 


soup.find all(text-is the only string within a tag) 
# [u"The Dormouse's story", u"The Dormouse's story", u'Elsie', u'Lé 
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虽然 text 参数 用 于 搜索 字符 串 ,还 可 以 与 其 它 参 数 混 合 使 用 来 过 滤 tag.Beautiful 
Soup 会 找到 ,string 方法 与 text 参数 值 相符 的 tag. 下 面 代码 用 来 搜索 内 容 里 
面包 含 “Elsie” 的 «a» 标签 : 





soup.find all("a", text="Elsie") 
# [<a href="http://example.com/elsie" class-'sister" id-'link1"»El: 
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limit 参数 


find all() 方法 返回 全 部 的 搜索 结构 ,如 果 文 档 树 很 大 那么 搜索 会 很 慢 . 如 果 我 们 
不 需要 全 部 结果 ,可 以 使 用 limit 参数 限制 返回 结果 的 数量 .效果 与 SQL 中 的 limit 
关键 字 类 似 , 当 搜 索 到 的 结果 数量 达到 limit 的 限制 时 ,就 停止 搜索 返回 结果 . 


文档 树 中 有 3 个 tag 符 合 搜索 条 件 ,但 结果 只 返回 了 2 个 ,因为 我 们 限制 了 返回 数量 : 
soup.find all("a", limit-2) 


# [<a class-"sister" href="http://example.com/elsie" id-"linki1"»El: 
4 <a class="sister" href="http://example.com/lacie" id="link2">Lac 


4 — 8 





recursive 参数 


调用 tag 的 find all() 方法 时 ,Beautiful Soup 会 检索 当前 tag 的 所 有 子孙 节点 ,如 
只 想 搜索 tag 的 直接 子 节点 ,可 以 使 用 参数 recursive=False 


一 段 简单 的 文档 : 


«html» 
«head» 
«title» 
The Dormouse's story 
</title> 
</head> 


x GAS recursive 参数 的 搜索 结果 : 


soup.html.find all("title") 
# [<title>The Dormouse's story</title>] 


soup.html.find all("title", recursive-False) 


* [] 


像 调 用 find all() 一 样 调 用 tag 


find all() 几乎 是 Beautiful Soup 中 最 常用 的 搜索 方法 ,所 以 我 们 定义 了 它 的 简 
d BeautifulSoup 对 象 和 tag 对 象 可 以 被 当 作 一 个 方法 来 使 用 ,这 个 方法 
的 执行 结果 与 调用 这 个 对 象 的 _ find_al1() 方法 相同 ,下 面 两 行 代码 是 等 价 的 : 


soup.find all("a") 
soup( "a") 


行 代码 也 是 等 价 的 : 


soup.title.find all(text-True) 
soup.title(text-True) 


find() 
find( name , attrs , recursive , text , **kwargs ) 
ct _all() 方法 将 返回 文档 中 符合 条 件 的 所 有 tag, 尽 管 有 时 候 我 们 只 想得到 一 个 


结果 .比如 文档 中 只 有 一 个 <body> ,那么 使 用 find all() FARE 
& «body» 标签 就 不 太 合适 , 使 用 find all 方法 并 设置 limit=1 参数 不 如 直 
接 使 用 find() 方法 .下 面 两 行 代码 是 等 价 的 : 


soup.find all('title', limit-1) 
# [<title>The Dormouse's story</title>] 


soup. find('title') 
# <title>The Dormouse's story</title> 


唯一 的 区 别 是 find all() 方法 的 返回 结果 是 值 包含 一 个 元 素 的 列表 
find() 方法 直接 返回 结果 . 


find all() 方法 没有 找到 目标 是 返回 空 列表 ，find() 方法 找 不 到 目标 时 ,返回 


None 


print(soup.find("nosuchtag")) 
# None 


soup.head.title 是 tag 的 名 字 方法 的 简写 .这 个 简写 的 原理 就 是 多 次 调用 当前 
tag 的 find() 方法 : 


soup.head.title 
# <title>The Dormouse's story</title> 


soup.find("head").find("title") 
# <title>The Dormouse's story</title> 


find parents() 7» find parent() 


find parents( name , attrs , recursive , text , **kwargs ) 


find parent( name , attrs , recursive , text , **kwargs ) 


我 们 已 经 用 了 很 大 篇 幅 来 介绍 find all() 和 find() 方法 , Beautiful Soup ? 
还 有 10 个 用 于 搜索 的 API. 它 们 中 的 五 个 用 的 是 与 find_all() 相同 的 搜索 参数 , 另 
外 5 个 与 find() 方法 的 搜索 参数 类 似 . 区 别 仅 是 它们 搜索 文档 的 不 同 部 分 . 


记 住 : find all() 和 find() 只 搜索 当前 节点 的 所 有 子 节点 ,孙子 节点 等 . 
find parents() 和 find parent() 用 来 搜索 当前 节点 的 父 华 节点 ,搜索 方法 
与 普通 tag 的 搜索 方法 相同 ,搜索 文档 搜索 文档 包含 的 内 容 . 我 们 从 一 个 文档 中 的 一 个 

叶子 节点 开始 : 


a_string = soup.find(text="Lacie") 
a_string 
# u'Lacie' 


a string.find parents("a") 
# [<a class-"sister" href="http://example.com/lacie" id="link2">Lac 


a_string.find_parent("p") 

# <p class="story">Once upon a time there were three little sister: 
# <a class="sister" href="http://example.com/elsie" id="link1">El: 
# <a class="sister" href="http://example.com/lacie" id="link2">Lac¢ 
# <a class="Sister" href="http://example.com/tillie" id="link3">T: 
# and they lived at the bottom of a well.</p> 


a_string.find_parents("p", class="title") 


# [] 
EE 
文档 中 的 一 个 «a» 标签 是 是 当前 叶子 节点 的 直接 父 节点 ,所 以 可 以 被 找到 .还 有 一 
个 «p» 标签 ,是 目标 叶子 节点 的 间接 父 草 节点 ,所 以 也 可 以 被 找到 .包含 class 值 


为 "title" 的 «p» 标签 不 是 不 是 目标 叶子 节点 的 父 华 节点 ,所 以 通过 
find parents() 方法 搜索 不 到 . 





find parent() 和 find parents() 方法 会 让 人 联想 到 .parent 和 .parents 属 
性 .它们 之 间 的 联系 非常 紧密 .搜索 父 华 节点 的 方法 实际 上 就 是 对 .parents 属性 
的 选 代 搜 索 . 


find next siblings() 合 find next sibling() 


find next siblings( name , attrs , recursive , text , **kwargs ) 
find next sibling( name , attrs , recursive , text , **kwargs ) 


这 2 个 方法 通过 .next siblings 属性 对 当 tag 的 所 有 后 面 解析 [5] 的 兄弟 tag 节 点 进行 
迭代 ，find_next_siblings() 方法 返回 所 有 符合 条 件 的 后 面 的 兄弟 节点 ， 
find next sibling() 只 返回 符合 条 件 的 后 面 的 第 一 个 tag 节 点 . 


first link = soup.a 
first link 
# «a class-"sister" href="http://example.com/elsie" id="linki">Els: 


first_link.find_next_siblings("a") 
# [<a class="sister" href="http://example.com/lacie" id="link2">Lac 
# <a class="Sister" href="http://example.com/tillie" id="link3">T: 


first_story_paragraph = soup.find("p", "story") 
first story paragraph.find next sibling("p") 
# «p class="Story">...</p> 


E 





find previous siblings() 和 find_previous_sibling() 


find previous siblings( name , attrs , recursive , text , **kwargs 
find previous sibling( name , attrs , recursive , text , **kwargs ) 


这 2 个 方法 通过 previous siblings 属性 对 当前 tag 的 前 面 解析 [5] 的 兄弟 tag 节 点 进 
行 和 迭代 ，find_previous_siblings() 方法 返回 所 有 符合 条 件 的 前 面 的 兄弟 节点 ， 
find previous sibling() 方法 返回 第 一 个 符合 条 件 的 前 面 的 兄弟 节点 : 


last link = soup.find("a", id="link3") 
last link 
# «a class-"sister" href="http://example.com/tillie" id="link3">Ti- 


last_link.find_previous_siblings("a") 
# [<a class-"sister" href="http://example.com/lacie" id="link2">Lac¢ 
4 <a class-'"sister" href="http://example.com/elsie" id="link1">El: 


first_story_paragraph = soup.find("p", "story") 
first story paragraph.find previous sibling("p") 
# «p class="title"><b>The Dormouse's story</b></p> 
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find all next() 和 find next() 


find all next( name , attrs , recursive , text , **kwargs ) 
find next( name , attrs , recursive , text , **kwargs ) 


这 2 个 方法 通过 next elements 属性 对 当前 tag 的 之 后 的 [5] tagfe FiF P ITAR, 
find all next() 方法 返回 所 有 符合 条 件 的 节点 ，find_next() 方法 返回 第 一 
个 符合 条 件 的 节点 : 


first link = soup.a 
first_link 
# <a class-"sister" href="http://example.com/elsie" id="link1">Els: 


first_link.find_all_next(text=True) 
# [u'Elsie', u',\n', u'Lacie', u' and\n', u'Tillie', 
# u';\nand they lived at the bottom of a well.', u'\n\n', u'...', 


first link.find next("p") 
# «p class="Story">...</p> 


E] 


第 一 个 例子 中 ,字符 串 “Elsie” 也 被 显示 出 来 ,尽管 它 被 包含 在 我 们 开始 查找 的 <a> 标 
签 的 里 面 . 第 二 个 例子 中 ,最 后 一 个 <p> 标签 也 被 显示 出 来 ,尽管 它 与 我 们 开始 查找 

位 置 的 <a> 标签 不 属于 同一 部 分 .例子 中 ,搜索 的 重点 是 要 匹配 过 滤器 的 条 件 ,并 且 

在 文档 中 出 现 的 顺序 而 不 是 开始 查找 的 元 素 的 位 置 . 





find all previous() 和 find previous() 


find all previous( name , attrs , recursive , text , **kwargs ) 


find previous( name , attrs , recursive , text , **kwargs ) 


这 2 个 方法 通过 previous elements 属性 对 当前 节点 前 面 [5] 的 tag 和 字符 串 进 行 选 
R, find_all_previous() 方法 返回 所 有 符合 条 件 的 节点 ，find_previous() 
方法 返回 第 一 个 符合 条 件 的 节点 ， 


first link = soup.a 
first link 
# «a class-"sister" href="http://example.com/elsie" id="linki">Els: 


first link.find all previous("p") 
# [<p class="story">Once upon a time there were three little siste) 
4 <p class="title"><b>The Dormouse's story</b></p>] 


first_link.find_previous("title") 
# <title>The Dormouse's story</title> 








find all previous("p") 返回 了 文档 中 的 第 一 段 (class="title” 的 那 段 ), 但 还 返回 
了 第 二 段 ，<p> 标签 包含 了 我 们 开始 查找 的 <a> 标签 .不 要 惊讶 ,这 段 代码 的 功能 是 
查找 所 有 出 现在 指定 <a> 标签 之 前 的 <p> 标签 ,因为 这 个 <p> 标签 包含 了 开始 
的 «a» 标签 ,所 以 «p» 标签 一 定 是 在 «a» 之 前 出 现 的 . 


CSS tit 


Beautiful Soup 支 持 大 部 分 的 CSS 选 择 器 [6] ,在 Tag 或 Beautifulsoup 对 象 的 
.select() 方法 中 传 入 字符 串 参 数 , 即 可 使 用 CSS 选 择 器 的 语法 找到 tag: 


soup.select("title") 
# [<title>The Dormouse's story</title>] 


soup.select("p nth-of-type(3)") 
# [<p class="Story">...</p>] 
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通过 tag 标 


soup.select("body a") 

# [<a class-"sister" href="http://example.com/elsie" id="]ink1">El: 
4 <a class="sister" href="http://example.com/lacie" id="link2">Lé 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 


soup.select("html head title") 
# [<title>The Dormouse's story</title>] 


找到 某 个 tag 标 签 下 的 直接 子 标 签 [6] : 





soup.select("head > title") 
# [<title>The Dormouse's story</title>] 


soup.select("p » a") 

# [<a class-"sister" href="http://example.com/elsie" id-z"link1"»El: 
# <a class="sister" href="http://example.com/lacie" id="link2">Lé 
# <a class="sister" href="http://example.com/tillie" id="link3">T: 


soup.select("p > a:nth-of-type(2)") 
# [<a class-"sister" href="http://example.com/lacie" id="link2">Lac 


soup.select("p > #link1i") 
# [<a class-"sister" href="http://example.com/elsie" idz"link1"»5El: 


soup.select("body > a") 


# [] 
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找到 兄弟 节点 标 


soup.select("#link1 ~ .sister") 
# [<a class-"sister" href="http://example.com/lacie" idz"link2"»La« 
# <a class-'"sister" href="http://example.com/tillie" id="link3"> 


soup.select("#link1i + .sister") 
# [<a class-"sister" href="http://example.com/lacie" id="link2">Lac 
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通过 CSS 的 类 名 查找 : 


soup.select(".sister") 

# [<a class-"sister" href="http://example.com/elsie" idz"link1"»5El: 
# <a class="sister" href="http://example.com/lacie" id="link2">Lac 
# <a class="Sister" href="http://example.com/tillie" id="link3">T: 


soup.select("[class~=sister]") 

# [<a class-"sister" href="http://example.com/elsie" id="Linki">El; 
# <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class="sister" href="http://example.com/tillie" id="link3">T: 
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通过 tag 的 id 查找 : 





soup.select("4Zlinki") 
# [<a class-"sister" href="http://example.com/elsie" id="Linki">Els 


soup.select("a#link2") 
# [<a class-'"sister" href="http://example.com/lacie" id="link2">Lac 





E 


通过 是 否 存在 茶 个 属性 来 查找 : 


soup.select('a[href]') 

# [<a class-"sister" href="http://example.com/elsie" id-"linki1"»El: 
4 <a class-'"sister" href="http://example.com/lacie" id="link2">Lac 
# <a class-'"sister" href="http://example.com/tillie" id="link3">T: 





通过 属性 的 值 来 查找 : 


soup.select('a[hrefz'http://example.com/elsie"]') 
# [<a class-"sister" href="http://example.com/elsie" idz"link1"»5El: 


soup.select('a[href^z"http://example.com/"]') 
# [<a class="sister" href="http://example. 


# <a class-"sister" href="http://example.c 


# <a class="Sister" href="http://example. 


soup.select('a[href$-"tillie"]') 


# [<a class="Sister" href="http://example. 


soup.select('a[href*=".com/el"]' ) 


# [<a class="sister" href="http://example. 


multilingual_markup = """ 
«p lang="en">Hello</p> 
<p lang="en-us">Howdy, y'all</p> 
<p lang="en-gb">Pip-pip, old fruit</p> 
<p lang="fr">Bonjour mes amis</p> 


com/elsie" id="link1i">El: 
om/lacie" id="link2">Lac 
com/tillie" id="link3">T: 


com/tillie" id="link3">T: 


com/elsie" id-"linki1"»5El: 





multilingual soup - BeautifulSoup(multilingual markup) 


multilingual soup.select('p[lang|-en]') 
# [<p lang="en">Hello</p>, 
# <p lang="en-us">Howdy, y'all</p>, 


# <p lang="en-gb">Pip-pip, old fruit</p>] 


对 于 熟悉 CSS 选 择 器 语法 的 人 来 说 这 是 个 非常 方便 的 方法 .Beautiful Soup 也 支持 


CSSi# 4 SAPI, 如 果 你 仅仅 ihe 择 器 的 功能 


,那么 


直接 使 用 lxml 也 可 以 ,而 


且 速 度 更 快 ,支持 更 多 的 CSS 选 择 器 得 法 ,但 Beautiful Soup 整 合 了 CSS 选 择 器 的 语法 


和 自身 方便 使 用 API. 


修改 文档 树 


Beautiful Soup 的 强项 是 文档 树 的 搜索 ,但 同时 也 可 以 方便 的 修改 文档 树 


修改 tag 的 名 称 和 属性 


在 Attributes 的 章节 中 已 经 介绍 过 这 个 功能 ,但 是 再 看 一 遍 也 无 妨 . 重 命名 一 个 tag, 改 
变 属性 的 值 ,添加 或 删除 属性 : 


soup = BeautifulSoup('«b class="boldest">Extremely bold</b>' ) 
tag = soup.b 


tag.name = "blockquote" 

tag['class'] = 'verybold' 

tag['id'] = 1 

tag 

# <blockquote class="verybold" id="1">Extremely bold</blockquote> 


del tag['class'] 

del tag['id'] 

tag 

# <blockquote>Extremely bold</blockquote> 


加 | 
修改 .string 
给 tag 的 ,string 属性 赋值 ,就 相当 于 用 当前 的 内 容 替 代 了 原来 的 内 容 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 


tag - soup.a 

tag.string - "New link text." 

tag 

# «a href="http://example.com/">New link text.</a> 





注意 : 如 果 当 前 的 tag 包 含 了 其 它 tag, 那 么 给 它 的 .string 属性 赋值 会 覆盖 掉 原 有 
的 所 有 内 容 包 括 子 tag 


append() 


Tag.append() 方法 想 tag 中 添加 内 容 ,就 好 像 Python 的 列表 的 .append() 方法 : 


soup = BeautifulSoup("«a»Fooc/a»") 
soup.a.append("Bar") 


soup 
# <html><head></head><body><a>FooBar</a></body></html> 
soup.a.contents 

# [u'Foo', u'Bar'] 


BeautifulSoup.new_string() 和 .new_tag() 


如 果 想 添加 一 段 文本 内 容 到 文档 中 也 没 问 题 , 可 以 调用 Python 的 append() 方法 或 
调用 工厂 方法 BeautifulSoup.new_string() 


soup = BeautifulSoup("<b></b>") 

tag = soup.b 

tag.append("Hello") 

new string - soup.new string(" there") 
tag.append(new string) 

tag 

4 <b>Hello there.</b> 

tag.contents 

# [u'Hello', u' there'] 


如 果 想 要 创建 一 段 注释 ,或 Navigablestring 的 任何 子 类 ,将 子 类 作为 
new string() 方法 的 第 二 个 参数 传 入 : 


from bs4 import Comment 

new comment = soup.new string("Nice to see you.", Comment) 
tag.append(new comment) 

tag 

# <b>Hello there<!--Nice to see you. --></b> 

tag.contents 

X [u'Hello', u' there', u'Nice to see you.'] 


这 是 Beautiful Soup 4.2.1 中 新 增 的 方法 
创建 一 个 tag 最 好 的 方法 是 调用 工厂 方法 BeautifulSoup.new_tag() 


soup = BeautifulSoup("<b></b>") 
original tag = soup.b 


new tag = soup.new tag("a", href="http://www.example.com") 
original tag.append(new tag) 

original tag 

# <b><a href="http://ww.example.com"></a></b> 


new_tag.string = "Link text." 
original tag 
# <b><a href="http://ww.example.com">Link text.</a></b> 


BAAR tag name, Lak, HE AAI 


insert() 


Tag.insert() 方法 与 Tag.append() 方法 类 似 , 区 别 是 不 会 把 新 元 素 添 加 到 父 
节点 ,contents 属性 的 最 后 ,而 是 把 元 素 插 入 到 指定 的 位 置 .与 Python 列表 总 的 
.insert() 方法 的 用 法 下 同 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 
tag - soup.a 


tag.insert(1, "but did not endorse ") 

tag 

# «a href="http://example.com/">I linked to but did not endorse «i: 
tag.contents 

# [u'I linked to ', u'but did not endorse', <i>example.com</i>] 
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insert before() 和 insert after() 


insert before() 方法 在 当前 tag 或 文本 节点 前 插入 内 容 : 


soup = BeautifulSoup("<b>stop</b>" ) 
tag - soup.new tag("i") 

tag.string - "Don't" 
soup.b.string.insert before(tag) 
soup.b 

# <b><i>Don't</i>stop</b> 


insert after() 方法 在 当前 tag 或 文本 节点 后 插入 内 容 : 


soup.b.i.insert after(soup.new string(" ever ")) 
soup.b 

4 <b><i>Don't</i> ever stop</b> 

soup.b.contents 

# [«i»Don't«/i», u' ever ', u'stop'] 


clear() 
Tag.clear() 方法 移 除 当 前 tag 的 内 容 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 
tag - soup.a 


tag.clear() 
tag 
# «a href="http://example.com/"></a> 
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extract() 


PageElement.extract() 方法 将 当前 tag 移 除 文 档 树 ,并 作为 方法 结果 返回 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 
a tag - soup.a 


i tag - soup.i.extract() 


a tag 
# «a href="http://example.com/">I linked to</a> 


i_tag 
# <i>example.com</i> 


print(i tag.parent) 
None 
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这 个 方法 实际 上 产生 了 2 个 文档 树 : 一 个 是 用 来 解析 原始 文档 的 ” BeautifulSoup 
对 象 , 另 一 个 是 被 移 除 并 且 返 回 的 tag. 被 移 除 并 返回 的 tag 可 以 继续 调用 extract 
方法 : 





my string = i tag.string.extract() 
my string 
4 u'example.com' 


print(my string.parent) 
# None 


i tag 
# «i»«/i» 


decompose() 
Tag.decompose() 方法 将 当前 节点 移 除 文档 树 并 完全 销毁 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 
a tag - soup.a 


soup.i.decompose() 


a tag 
# «a href="http://example.com/">I linked to</a> 





replace_with() 


PageElement.replace with() 方法 移 除 文档 树 中 的 某 段 内 容 , 并 用 新 tag 或 文本 
节点 替代 它 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 
a tag - soup.a 


new tag - soup.new tag("b") 
new tag.string - "example.net" 
a tag.i.replace with(new tag) 


a tag 
# «a href="http://example.com/">I linked to <b>example.net</b></a> 





replace with() 方法 返回 被 蔡 代 的 tag 或 文本 节点 ,可 以 用 来 浏览 或 添加 到 文档 
树 其 它 地 方 


wrap() 


PageElement.wrap() 方法 可 以 对 指定 的 tag 元 素 进 行 包 装 [8] ,并 返回 包装 后 的 结 
果 : 


soup = BeautifulSoup("<p>I wish I was bold.</p>") 
soup.p.string.wrap(soup.new tag("b")) 
# «b»I wish I was bold.</b> 


soup.p.wrap(soup.new tag("div")) 
# <p><b>I wish I was bold.</b></p> 


该 方法 在 Beautiful Soup 4.0.5 中 添加 


unwrap() 


Tag.unwrap() 方法 与 wrap() 方法 相反 .将 移 除 tag 内 的 所 有 tag 标 签 ,该 方法 常 
被 用 来 进行 标记 的 解 包 : 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup = BeautifulSoup(markup) 
a tag - soup.a 


a tag.i.unwrap() 
a tag 
# «a href="http://example.com/">I linked to example.com</a> 
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与 replace with() 方法 相同 ，unwrap() 方法 返回 被 移 除 的 tag 


输出 
格式 化 输出 


prettify() 方法 将 Beautiful Soup 的 文档 树 格 式 化 后 以 Unicode 编 码 输出 ,每 个 
XML/HTML 标 签 都 独占 一 行 


markup = '«a href="http://example.com/">I linked to «i»example.com- 
soup - BeautifulSoup(markup) 

soup.prettify() 

# '<html>\n <head>\n </head>\n <body>\n <a href="http://example.cc 


print(soup.prettify()) 
# <html> 
<head> 
</head> 
<body> 
<a href="http://example.com/"> 
I linked to 
<i> 
example.com 
</i> 
</a> 
</body> 
</html> 


a 了 崔 


BeautifulSoup 对 象 和 它 的 tag 节 点 都 可 以 调用 prettify() 方法 : 


dk db dk dt dt dt dk dk dk Gb Gk 





print(soup.a.prettify()) 

«a href="http://example.com/"> 
I linked to 

«i» 
example.com 

</i> 

</a> 
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压缩 输出 


如 果 只 想得到 结果 字符 串 , 不 重视 格式 ,那么 可 以 对 一 个 BeautifulSoup 对 象 或 
Tag 对 象 使 用 Python 的 unicode() 或 str() X: 


str(soup) 
# '<html><head></head><body><a href="http://example.com/">I linked 


unicode(soup.a) 
# u'«a href="http://example.com/">I linked to <i>example.com</i></% 
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str() 方法 返回 UTF-8 编 码 的 字符 串 , 可 以 指定 编码 的 设置 . 


还 可 以 调用 encode() 方法 获得 字 节 码 或 调用 decode() 方法 获得 Unicode. 


输出 格式 
Beautiful Soup 输 出 是 会 将 HTML 中 的 特殊 字符 转换 成 Unicode, 比 如 “&|lquot;”: 


soup = BeautifulSoup("&ldquo;Dammit!&rdquo; he said.") 
unicode(soup) 
# u'<html><head></head><body>\u201cDammit !\u201d he said.</body></t 
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如 果 将 文档 转换 成 字符 串 ,Unicode 编 码 会 被 编码 成 UTF-8. 这 样 就 无 法 正确 显 
HTML 特 殊 字 符 了 : 





str(soup) 
# '<html><head></head><body>\xe2\x80\x9cDammit!\xe2\x80\x9d he sait 





get text() 


如 果 只 想得到 tag 中 包含 的 文本 内 容 ,那么 可 以 过 用 get text() 方法 ,这 个 方法 区 
取 到 tag 中 包含 的 所 有 文 版 内 容 包 括 子孙 tag 中 的 内 容 ,并 将 纪 5 Xt Jj Unicode 2:41 ¥ 
返回 : 


markup = '«a href="http://example.com/">\nI linked to <I>eXxamp]e.c 
soup = BeautifulSoup(markup) 


soup.get text() 

u'\nI linked to example.com\n' 
soup.i.get text() 
u'example.com' 


«| = 


可 以 通过 参数 指定 tag 的 文本 内 容 的 分 隔 符 : 








# soup.get text("|") 
u'\nI linked to |example.com|\n' 


还 可 以 去 除 获 得 文本 内 容 的 前 后 空白 : 


# soup.get text("|", strip-True) 
u'I linked to|example.com' 


或 者 使 用 .stripped strings 生成 器 ,获得 文本 列表 后 手动 处 理 列表 : 


[text for text in soup.stripped strings] 
# [u'I linked to', u'example.com'] 


指定 文档 解析 器 


如 果 仅 是 想 要 解析 HTML 文 档 , 只 要 用 文档 创建 BeautifulSoup 对 象 就 可 以 
了 .Beautiful Soup 会 自动 选择 一 个 解析 器 来 解析 文档 .但 是 还 可 以 通过 参数 指定 使 用 
那 种 解析 器 来 解析 当前 文档 . 


BeautifulSoup 第 一 个 参数 应 该 是 要 被 解析 的 文档 字符 串 或 是 文件 句柄 ,第 二 个 
参数 用 来 标识 怎样 解析 文档 .如 果 第 二 个 参数 为 空 ,那么 Beautiful Soup 根 据 当 前 系统 
安装 的 库 自 动 选择 解析 器 ,解析 器 的 优先 数 序 : xml, html5lib, Python 标准 库 .在 下 面 
两 种 条 件 下 解析 器 优先 顺序 会 变化 : 


e 要 解析 的 文档 是 什么 类 型 : 目前 支持 “htmP， “xml”, 和 “html5” 

e 指定 使 用 哪 种 解析 器 : 目前 支持 , "xml", htmlblib", 和 “html.parser” 
安装 解析 器 章节 介绍 了 可 以 使 用 哪 种 解析 器 ,以 及 如 何 安装 . 

如 


指定 的 解析 器 没有 安装 , Beautiful Soup 会 自动 选择 其 它 方案 .目前 只 有 Ixml 解析 
持 XML 文 档 的 解析 ,在 没有 安装 lxml 库 的 情况 下 ,创建 beautifulsoup 对 象 时 
无 论 是 否 指定 使 用 Xml, 都 无 法 得 到 解析 后 的 对 象 
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解析 器 之 间 的 区 别 


Beautiful Soup 为 不 同 的 解析 器 提供 了 相同 的 接口 ,但 解析 器 本 身 时 有 区 别 的 .同一 篇 
文档 被 不 同 的 解析 器 解析 后 可 能 会 生成 不 同 结构 的 树 型 文档 .区 别 最 大 的 是 HTML 解 
析 器 和 XML 解析 器 ,看 下 面 片段 被 解析 成 HTML 结 构 : 


BeautifulSoup("«a»«b /»«/a»") 
# <html><head></head><body><a><b></b></a></body></htm1> 


因为 空 标签 <b /> 不 符合 HTML 标 准 ,所 以 解析 器 把 它 解 析 成 <b></b> 


同样 的 文档 使 用 XML 解 析 如 下 (解析 XML 需 要 安装 Ixml 库 ). 注 意 , 空 标签 <b /> 依然 
被 保留 ,并 且 文 档 前 添加 了 XML 头 ,而 不 是 被 包含 在 «html» 标签 内 : 


BeautifulSoup("<a><b /></a>", "xml") 
# <?xml version="1.0" encoding="utf-8"?> 
# <a><b/></a> 


HTML 解 析 器 之 间 也 有 区 别 ,如 果 被 解析 的 HTML 文 档 是 标准 格式 ,那么 解析 器 之 间 没 
有 任何 差别 ,只 是 解析 速度 不 同 ,结果 都 会 返回 正确 的 文档 树 . 


但 是 如 果 被 解析 文档 不 是 标准 格式 ,那么 不 同 的 解析 器 返回 结果 可 能 不 同 .下 面 例子 
中 ,使 用 lxml 解 析 错 误 格 式 的 文档 ,结果 </p> 标签 被 直接 忽略 掉 了 : 


BeautifulSoup("«a»«/p»", "lxml") 
# <html><body><a></a></body></html> 


使 用 html5lib 库 解析 相同 文档 会 得 到 不 同 的 结果 : 


BeautifulSoup("<a></p>", "html5lib") 
# <html><head></head><body><a><p></p></a></body></htm1> 


html5lib 库 没有 忽略 掉 </p> 标签 ,而 是 自动 补 全 了 标签 ,还 给 文档 树 添加 
了 <head> 标签 . 


使 用 pyhton 内 置 库 解析 结果 如 下 : 


BeautifulSoup("<a></p>", "html.parser") 
# <a></a> 


与 lxml [7] 库 类 似 的 ,Python 内 置 库 忽略 掉 了 </p> 标签 ,与 html5lib 库 不 同 的 是 标准 
库 没 有 尝试 创建 符合 标准 的 文档 格式 或 将 文档 片段 包含 在 <body> 标签 内 ,与 Xml 不 
同 的 是 标准 库 其 至 连 «html» 标签 都 没有 尝试 去 添加 . 

因为 文档 片段 ”<a></p> "是 错误 格式 ,所 以 以 上 解析 方式 都 能 算 作 "正确 "html5lib 库 


使 用 的 是 HTML5 的 部 分 标准 ,所 以 最 接近 "正确 "不 过 所 有 解析 器 的 结构 都 能 够 被 认 
为 是 "正常 "的 . 


不 同 的 解析 器 可 能 影响 代码 执行 结果 ,如 果 在 分 发 给 别人 的 代码 中 使 用 了 
BeautifulSoup ,那么 最 好 注 明 使 用 了 哪 种 解析 器 ,以 减少 不 必要 的 麻烦 . 


编码 


任何 HTML 或 XML 文档 都 有 自己 的 编码 方式 ,比如 ASCI 或 UTF-8, 但 是 使 用 Beautiful 
Soup 解 析 后 ,文档 都 被 转换 成 了 Unicode: 


markup = "<h1i>Sacr\xc3\xa9 bleu!</hi>" 
soup = BeautifulSoup(markup) 

soup.hi 

# <hi>Sacré bleu!</h1> 

soup.hi.string 

# u'Sacr\xe9 bleu!' 


这 不 是 魔术 (但 很 神奇 ) Beautiful Soup 用 了 编码 自动 检测 子 库 来 识别 当前 文档 编码 
并 转换 成 Unicode 编 码 . BeautifulSoup 对 象 的 ,original encoding 属性 记 
录 了 自动 识别 编码 的 结果 : 


soup.original encoding 
'utf-8' 


编码 自动 检测 功能 大 部 分 时 候 都 能 猜 对 编码 格式 ,但 有 时 候 也 会 出 错 .有 时 候 即 使 猜 
测 正 确 , 也 是 在 逐个 字 节 的 遍历 整个 文档 后 才 猜 对 的 ,这 样 很 慢 . 如 果 预 先知 道 文 档 编 
码 ,可 以 设置 编码 参数 来 减少 自动 检查 编码 出 错 的 概率 并 且 提 高 文档 解析 速度 .在 创 
建 BeautifulSoup 对 象 的 时 候 设 置 from encoding Až. 


下 面 一 段 文档 用 了 ISO-8859-8 编 码 方式 ,这 段 文档 太 短 ,结果 Beautiful Soup 以 为 文档 
是 用 ISO-8859-7 编 码 : 


markup = b"<h1>\xed\xe5\xec\xf9</h1>" 
soup - BeautifulSoup(markup) 

soup.hi 

<h1>veuw</h1> 

soup.original_encoding 

'ISO-8859-7' 


通过 传 入 from encoding 参数 来 指定 编码 方式 : 


soup = BeautifulSoup(markup, from_encoding="iso-8859-8" ) 
soup.hi 

«hi»y2In«/h1» 

soup.original encoding 

' 1508859-8' 


少数 情况 下 (通常 是 UTF-8 编 码 的 文档 中 包含 了 其 它 编码 格式 的 文件 ), 想 获得 正确 的 

Unicode 编 码 就 不 得 不 将 文档 中 少数 特殊 编码 字符 替换 成 特殊 Unicode 编 

45 “REPLACEMENT CHARACTER" (U*FFFD, €) [9] . 如 有 果 Beautifu Soup 猜 测 文 

档 编码 时 作 了 特殊 字符 的 替换 ,那么 Beautiful Soup 会 把 UnicodeDammit 或 
BeautifulSoup 对 象 的 .contains replacement characters 属性 标记 为 
True .这 样 就 可 以 知道 当前 文档 进行 Unicode 编 码 后 丢失 了 一 部 分 特殊 内 容 字 符 . 

to RLF ALSO .contains replacement characters 属性 是 False Jl 

JR 4 3L LE PRR EH, Beh kK. 


输出 编码 


通过 Beautiful Soup 输 出 文档 时 ,不 管 输入 文档 是 什么 编码 方式 ,输出 编码 均 为 UTF-8 
编码 ,下 面 例子 输入 文档 是 Latin-1 编 码 : 


markup = b''' 
<html> 
<head> 
<meta content="text/html; charset-ISO-Latin-1" http-equiv="Content 
</head> 
<body> 
<p>Sacr\xe9 bleu!</p> 
</body> 
</html> 


soup = BeautifulSoup(markup) 
print(soup.prettify()) 
«html» 

«head» 

«meta content="text/html; charset-utf-8" http-equiv="Content-ty 
</head> 

<body> 

<p> 

Sacré bleu! 

</p> 

</body> 
</html> 
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注意 ,输出 文档 中 的 <meta> 标签 的 编码 设置 已 经 修改 成 了 与 输出 编码 一 致 的 UTF- 
8. 


如 果 不 想 用 UTF-8 编 码 输 出 ,可 以 将 编码 方式 传 入 prettify() 方法 : 


dk db dk dt dt dt db dk dk Gk 





print(soup.prettify("latin-1")) 

# «html» 

# «head» 

# <meta content="text/html; charset=latin-1" http-equiv-'Content. 
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还 可 以 调用 Beautifulsoup 对 象 或 任意 节点 的 encode() 方法 ,就 像 Python 的 
字符 串 调用 encode() 方法 一 样 : 


soup.p.encode("latin-1") 
# '<p>Sacr\xe9 bleu!</p>' 


soup.p.encode("utf-8") 
# '<p>Sacr\xc3\xa9 bleu!</p>' 
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符 引用 ,下 面 例 子 中 包含 了 Unicode 编 码 字符 SNOWMAN: 


markup = u"<b>\N{SNOWMAN}</b>" 
snowman_soup = BeautifulSoup(markup) 
tag = snowman_soup.b 


SNOWMAN 字 符 在 UTF-8 编 码 中 可 以 正常 显示 (看 上 去 像 是 造 ), 但 有 些 编码 不 支持 
SNOWMAN 字 符 ,比如 ISO-Latin-1 或 ASCIl, 那 么 在 这 些 编码 中 SNOWMAN 字 符 会 被 
转换 成 “&#9731”: 


print(tag.encode("utf-8")) 
# «b»6«/b» 


print tag.encode("latin-1") 
4 <b>&#9731; </b> 


print tag.encode("ascii" ) 
# <b>&#9731; </b> 


Unicode, dammit! (3: !) 


编码 自动 检测 功能 可 以 在 Beautiful Soup 以 外 使 用 ,检测 茶 段 未 知 编码 时 ,可 以 使 用 这 
个 方法 : 


from bs4 import UnicodeDammit 

dammit = UnicodeDammit("SacrNxc3Nxa9 bleu!") 
print(dammit.unicode markup) 

# Sacré bleu! 

dammit.original encoding 

# 'utf-8' 


如 果 Python 中 安装 了 chardet 或 cchardet 那么 编码 检测 功能 的 准确 率 将 大 大 
提高 . 检测 结果 越 精确 ,如 果 事 先 猜 测 到 一 些 可 能 编码 ,那么 可 以 将 猜 
测 的 编码 作为 参数 ,这 样 将 优先 检测 这 些 编码 : 


dammit = UnicodeDammit("Sacr\xe9 bleu!", ["latin-1", "iso-8859-1"] 
print(dammit.unicode markup) 

# Sacré bleu! 

dammit.original encoding 

# 'latin-1' 


Ee 
编码 自动 检测 功能 中 有 2 项 功能 是 Beautiful Soup 库 中 用 不 到 的 





智能 引号 


1& A Unicode Beautiful Soup 还 会 智能 的 把 引号 [10] 转换 成 HTML 或 XML 中 的 特 


markup = b"<p>I just \x93love\x94 Microsoft Word\x92s smart quotes: 


UnicodeDammit(markup, ["windows-1252"], smart quotes to-'html").un: 
# u'<p>I just &ldquo;love&rdquo; Microsoft Word&rsquo;s smart quote 


UnicodeDammit(markup, ["windows-1252"], smart quotes to-"xml").uni« 
# u'<p>I just &#x201C; love&#x201D; Microsoft Word&#x2019;s smart qt 


SSS SS HÀ! áÓÜ— Ee 
也 可 以 把 引号 转换 为 ASCII 码 : 





UnicodeDammit(markup, ["windows-1252"], smart quotes to-'ascii").ur 
# u'<p>I just "love" Microsoft Word\'s smart quotes</p>' 


| —————————s a | 


很 有 用 的 功能 ,但 是 Beautiful Soup 没 有 使 用 这 种 方式 .默认 情况 下 ,Beautiful Soupde 
引号 转换 成 Unicode: 





UnicodeDammit(markup, ["windows-1252"]).unicode markup 
# u'<p>I just Nu201cloveNu201d Microsoft Word\u2019s smart quotes<, 





aj 





矛盾 的 编码 


有 时 文档 的 大 部 分 都 是 用 UTF-8, 但 同时 还 包含 了 Windows-1252 编 码 的 字符 ,就 像 微 

软 的 智能 引号 [10] 一 样 .一 些 包 含 多 个 信 ， 来 源 网 站 容 多 出 现 这 种 情况 . 
UnicodeDammit.detwingle() 方法 可 以 把 这 文 类 文档 转换 成 纯 UTF-8 编 码 格式 ,看 
个 简单 的 例子 : 


snowmen = (u"\N{SNOWMAN}" * 3) 
quote = (u"\N{LEFT DOUBLE QUOTATION MARK}I like snowmen!\N{RIGHT D¢ 
doc = snowmen.encode("utf8") + quote.encode("windows 1252") 


| = z 


这 段 文 档 很 杂乱 ,snowmen 是 UTF-8 编 码 , 引 号 是 Windows-1252 编 码 ,直接 输出 时 不 
能 同时 显示 snowmen 和 引号 ,因为 它们 编码 不 同 : 





print(doc) 
4 65501 like snowmen!@ 


print(doc.decode("windows-1252")) 
# a Fa fa f"I like snowmen!” 


如 果 对 这 段 文档 用 UTF-8 解 码 就 会 得 到 UnicodeDecodeError JE, Jk A 
Windows-1252 解 码 就 回 得 到 一 堆 乱 码 . 幸 好 ，UnicodeDammit .detwingle() 方法 
会 吧 这 段 字 符 串 转换 成 UTF-8 编 码 ,允许 我 们 同时 显示 出 文档 中 的 snowmen 和 引号 : 


new doc = UnicodeDammit.detwingle(doc) 
print(new doc.decode("utf8")) 
# 665"I like snowmen!” 


UnicodeDammit. quus 方法 只 能 解码 包含 在 UTF-8 编 码 中 的 Windows- 
1252 编 码 内 容 , 但 这 解决 了 最 常见 的 一 类 问题 . 


在 创建 BeautifulSoup 或 UnicodeDammit 对 象 前 一 定 要 先 对 文档 调用 
UnicodeDammit.detwingle() 确保 文档 的 编码 方式 正确 .如 果 尝 试 去 解析 一 段 包 
含 Windows-1252 编 码 的 UTF-8 文 档 ,就 会 得 到 一 扒 乱 码 ,比如 : a" fa" fan fl like 
snowmen!”. 


UnicodeDammit.detwingle() 方法 在 Beautiful Soup 4.1.0 版 本 中 新 增 


解析 部 分 文档 


如 果 仅 仅 因 为 想 要 查找 文档 中 的 <a> 标签 而 将 整 片 文档 进行 解析 ,实在 是 浪费 内 存 
和 时 间 . 最 快 的 方法 是 从 一 开始 就 把 <a> 标签 cores 略 掉 . 
SoupStrainer 类 可 以 定义 文档 的 某 段 内 容 , 这 样 搜索 文档 时 就 不 必 先 解析 整 篇 文 
档 ,只 会 解析 在 Soupstrainer 中 定义 过 的 文档 . 创建 一 个 Soupstrainer WHR 
并 作为 parse only 参数 给 BeautifulSoup 的 构造 方法 即 可 . 


SoupStrainer 


Soupstrainer 类 接受 与 典型 搜索 方法 相同 的 参数 : name, attrs , recursive , text 
, *kwargs 。 下 面 举例 说 明 三 种 SoupStrainer 对 象 : 


from bs4 import SoupStrainer 
only a tags - SoupStrainer("a") 


only tags with id link2 = SoupStrainer(id-z"link2") 





def is short string(string): 
return len(string) « 10 


only short strings - SoupStrainer(text-is short string) 


再 拿 “ 爱 丽 丝 "文档 来 举例 ， 来 看 看 使 用 三 种 Soupstrainer 对 象 做 参数 会 有 什么 
不 同 : 


SSS 


html doc = """ 
<html><head><title>The Dormouse's story</title></head> 


<p class="title"><b>The Dormouse's story</b></p> 


<p class="story">Once upon a time there were three little sisters; 
«a href="http://example.com/elsie" class="sister" id="linki">Elsie< 
<a href="http://example.com/lacie" class="sister" id="link2">Lacie< 
«a href="http://example.com/tillie" class-"sister" id="link3">Till: 
and they lived at the bottom of a well.</p> 


<p class="story">...</p> 


print(BeautifulSoup(html doc, "html.parser", parse only-only a tag: 

«a class="Sister" hrefz'http://example.com/elsie" id="linki"> 
Elsie 

</a> 

«a class="Sister" href="http://example.com/lacie" id="link2"> 
Lacie 

</a> 

«a classz"sister" href="http://example.com/tillie" id="link3"> 
Tillie 

</a> 


dk db dt dt dt dk dk Gk Gk 


print(BeautifulSoup(html doc, "html.parser", parse only-only tags v 
# «a class-"sister" href="http://example.com/lacie" idz"link2"» 

4 Lacie 

# </a> 


print(BeautifulSoup(html_doc, "html.parser", parse_only=only_short_ 
Elsie 

Lacie 

and 

Tillie 


dk db dk dt dt dto dk 





还 可 以 将 SoupStrainer 作为 参数 传 入 搜索 文档 树 中 提 到 的 方法 .这 可 能 不 是 个 


d 


al 


用 用 法 ,所 以 还 是 提 一 下 : 


soup = BeautifulSoup(html doc) 

soup.find all(only short strings) 

# [u'\n\n', u'\n\n', u'Elsie', u',\n', u'Lacie', u' and\n', u'Till: 
zu NIN uec t NT 








常见 问题 


代码 诊断 


如 果 想 知道 Beautiful Soup 到 底 怎 样 处 理 一 份 文档 ,可 以 将 文档 传 入 diagnose() 
方法 (Beautiful Soup 4.2. 0 中 新 增 )， Beautiful 会 输出 一 人 份 报告 ， 说 明 不 同 的 解析 
器 会 怎样 处 理 这 段 文档 , 并 标 出 当前 的 解析 过 程 会 使 用 哪 种 解析 器 


from bs4.diagnose import diagnose 
data = open("bad.htm1").read() 
diagnose(data) 


Diagnostic running on Beautiful Soup 4.2.0 

Python version 2.7.3 (default, Aug 1 2012, 05:16:07) 

I noticed that html5lib is not installed. Installing it may help 
Found lxml version 2.3.2.0 


Trying to parse your data with html.parser 
Here's what html.parser did with the document: 


dk db db dt dt dt dto dt 





diagnose() 方法 的 输出 结果 可 能 帮助 你 找到 问题 的 原因 ,如 果 不 行 ,还 可 以 把 结果 
复制 出 来 以 便 寻 求 他 人 的 帮助 


X FRA 


文档 解析 错误 有 两 种 .一 种 是 前 溃 ,Beautiful Soup 尝 试 解析 一 一 段 文档 结果 却 抛 除了 天 
常 ,通常 是 HTMLParser.HTMLParseError .还 有 一 种 异常 情况 ,是 Beautiful Soup 解 
析 后 的 文档 树 看 起 来 与 原来 的 内 容 相差 很 多 . 


这 些 错误 几乎 都 不 是 Beautiful Soup 的 原因 ,这 不 会 是 因为 Beautiful Soup 得 代码 写 的 
太 优 秀 , 而 是 因为 Soup 没 有 包含 任何 文档 解 本 代码. 异常 产生 自 被 依赖 的 解 
析 器 ,如 果 解 析 器 9 解析 出 当前 的 文档 ,那么 最 好 的 办 法 是 换 一 个 解析 器 .更 

多 细节 查看 DERE 


最 常见 的 解析 错误 是 HTMLParser.HTMLParseError: malformed start tag 和 
HTMLParser.HTMLParseError: bad end tag .这 都 是 由 Python 内 置 的 解析 器 引 
起 的 ,解决 方法 是 安装 lxml 或 html5lib 


常见 的 异常 现象 是 当前 文档 找 不 到 指定 的 Tag, 而 这 个 Tag 光 是 用 眼睛 就 足够 发 现 
的 了 . find_all() 方法 返回 [] ,而 find() 方法 返回 None .这 是 Python 内 置 解 
析 器 的 又 一 个 问题 ; 解析 器 会 跳 过 那些 它 不 知道 的 tag. 解 决 方法 还 是 安装 |Xml 或 
html5lib 


版 本 错误 


e SyntaxError: Invalid syntax ( 姬 常 位 置 在 代码 行 : 
ROOT TAG NAME = u'[document]' ), 因 为 Python2 版 本 的 代码 没有 经 过 迁移 
就 在 Python3 中 室 息 感 

e ImportError: No module named HTMLParser 因为 在 Python3 中 执行 
Python2 版 本 的 Beautiful Soup 

e ImportError: No module named html.parser 因为 在 Python2 中 执行 
Python3hk X & Beautiful Soup 

e ImportError: No module named BeautifulSoup 因为 在 没有 安装 
BeautifulSoup3 库 的 Python 环境 下 执行 代码 ,或 忘记 了 BeautifulSoup4 的 代码 需 
要 从 bs4 包 中 引入 

e ImportError: No module named bs4 因为 当前 Python 环境 下 还 没有 安装 
BeautifulSoup4 


解析 成 XML 


默认 情况 下 , Beautiful Soup 会 将 当前 文档 作为 HTML 格 式 解析 ,如 果 要 解析 XML 文 档 ， 
要 在 BeautifulSoup 构造 方法 中 加 入 第 二 个 参数 “xml: 


soup = BeautifulSoup(markup, "xml") 


o 如 果 同 样 的 代码 在 不 同 环境 下 结果 不 同 ,可 能 是 因为 两 个 环境 下 使 用 不 同 的 解析 
器 造成 的 .例如 这 个 环境 中 安装 了 Ixml, 而 另 一 个 环境 中 只 有 html5lib, 解析 器 之 间 
的 区 别 中 说 明了 原因 ,修复 方法 是 在 BeautifulSoup 的 构造 方法 中 中 指定 解 
析 器 

e 因为 HTML 标 签 是 大 小 写 敏感 的 ,所 以 3 种 解析 器 再 出 来 文档 时 都 将 tag 和 属性 
转换 成 小 写 .例如 文档 中 的 <TAG></TAG> 会 被 转换 为 <tag></tag> .如 果 
想 要 保留 tag 的 大 写 的 话 ,那么 应 该 将 文档 解析 成 XML . 


e UnicodeEncodeError: 'charmap' codec can't encode character u'\xf 
(或 其 它 类 型 的 UnicodeEncodeError ) 的 错误 ,主要 是 两 方面 的 错误 (都 不 是 
Beautiful Soup 的 原因 ), 第 一 种 是 正在 使 用 的 终端 (console) 无 法 显示 部 分 
Unicode, 参 考 Python wiki ,第 二 种 是 向 文件 写 入 时 ,被 写 入 文件 不 支持 部 分 
Unicode, 这 时 只 要 用 u.encode("utf8") 方法 将 编码 转换 为 UTF-8. 

e KeyError: [attr] 因为 调用 tag['attr'] 方法 而 引起 ,因为 这 个 tag 没 有 


定义 该 属性 .出 错 最 多 的 是 KeyError: 'href' 和 KeyError: 'class' .如 
果 不 确 定 某 个 属性 是 否 存在 时 ,用 tag.get('attr') 方法 去 获取 它 , 跟 获 取 
Python 字典 的 key 一 样 

e AttributeError: 'ResultSet' object has no attribute 'foo' 错误 
通常 是 因为 把 find all() 的 返回 结果 当 作 一 个 tag 或 文本 节点 使 用 ,实际 上 

回 结果 是 一 个 列表 或 ResultSet 对 象 的 字符 串 , 需 要 对 结果 进行 循环 才能 

得 到 每 个 节点 的 ,foo 属性 .或 者 使 用 find 方法 仅 获取 到 一 个 节点 

e AttributeError: 'NoneType' object has no attribute 'foo' 这 个 错 
误 通常 是 在 调用 了 find) 方法 后 直 节 点 取 某 个 属性 .foo 但 是 find() 7 
法 并 没有 找到 任何 结果 ,所 以 它 的 返回 值 是 None .需要 找 出 为 什么 find() 
的 返回 值 是 None 


ho FY He By BK FE 
Beautiful Soup 对 文档 的 解析 速度 不 会 比 它 所 依赖 的 解析 器 更 快 ,如 果 对 计算 时 间 要 
求 很 高 或 者 计算 机 的 时 间 比 程序 员 的 时 间 更 值钱 ,那么 就 应 该 直接 使 用 xm. 


4f 6] 话说 ,还 有 提 高 Beautiful Soup 效 率 的 办 法 ,使 用 Ban 为 解析 器 ,Beautiful Soup 
用 |xml 做 解析 器 比 用 html5lib 或 Python 内 置 解 析 器 速度 快 很 多 


安装 cchardet 后 文档 的 解码 的 编码 检测 会 速度 更 快 


解析 部 分 文档 不 会 节省 多 少 解析 时 间 , 但 是 会 节省 很 多 内 存 ,并 且 搜索 时 也 会 变 得 更 
R. 


Beautiful Soup 3 
Beautiful Soup 3 是 上 一 个 发 布 版 本 ,目前 已 经 停止 维护 .Beautiful Soup 3 库 目 前 已 经 
被 几 个 主要 的 linux 平 台 添加 到 源 里 : 
$ apt-get install Python-beautifulsoup 
在 PyPi 中 分 发 的 包 名 字 是 BeautifulSoup 
$ easy_install BeautifulSoup 
$ pip install BeautifulSoup 
或 通过 Beautiful Soup 3.2.0 源 码 包 安装 


Beautiful Soup 3 的 在 线 文档 查看 这 里 ,当然 还 有 中 文 版 ,然后 再 读本 片 文档 ,来 对 比 
Beautiful Soup 4 中 有 什 新 变化 . 


迁移 到 BS4 


只 要 一 个 小 变动 就 能 让 大 部 分 的 Beautiful Soup 3 代码 使 用 Beautiful Soup 4 的 库 和 
方法 一 -修改 BeautifulSoup 对 象 的 引入 方式 : 


from BeautifulSoup import BeautifulSoup 


修改 为 : 


from bs4 import BeautifulSoup 


e 如 果 代 码 抛 出 ImportError 异常 "No module named BeautifulSoup",/$ A "T 
能 是 尝试 执行 Beautiful Soup 3, 但 环境 中 只 安装 了 Beautiful Soup 4 库 

e 如 果 代 码 跑 出 ImportError 异常 “No module named bs4” 原因 可 能 是 尝试 
运行 Beautiful Soup 4 的 代码 ,但 环境 中 只 安装 了 Beautiful Soup 3. 


虽然 BS4 兼 容 绝 大 部 分 BS3 的 功能 ,但 BS3 中 的 大 部 分 方法 已 经 不 推荐 使 用 了 ,就 方法 
按照 PEP8 标 准 重新 定义 了 方法 名 .很 多 方法 都 重新 定义 了 方法 名 ,但 只 有 少数 几 个 
方法 没有 向 下 兼容 . 


上 述 内容 就 是 BS3 迁 移 到 BS4 的 注意 事项 


需要 的 解析 器 


Beautiful Soup 3 曾 使 用 Python 的 SGMLParser 解析 器 ,这 个 模块 在 Python3 中 已 经 
被 移 除 了 .Beautiful Soup 4 默认 使 用 系统 的 html.parser ,也 可 以 使 用 xml 或 
html5lib 扩 展 库 代 替 .查看 安装 解析 器 章节 


因为 html.parser 解析 器 与 SGMLParser 解析 器 不 同 ,它们 在 处 理 格式 不 正确 
的 文档 时 也 会 产生 不 同 结果 .通常 html.parser 解析 器 会 抛 出 异常 .所 以 推荐 安装 
扩展 库 作 为 解析 器 .有 时 html.parser 解析 出 的 文档 树 结构 与 SGMLParser 的 
不 同 .如 果 发 生 这 种 情况 ,那么 需要 升级 BS3 来 处 理 新 的 文档 树 . 


方法 名 的 变化 


renderContents -> encode contents 
replacewith -> replace with 
replacewithChildren -> unwrap 

findAll -> find all 

findAllNext -» find all next 
findAllPrevious -> find all previous 
findNext -» find next 

findNextSibling -> find next sibling 
findNextSiblings -> find next siblings 
findParent -> find parent 

findParents -> find parents 

findPrevious -> find previous 
findPreviousSibling -> find previous sibling 
findPreviousSiblings -> find previous siblings 
nextSibling -» next sibling 

previousSibling -> previous sibling 


Beautiful Soup 构 造 方法 的 参数 部 分 也 有 名 字 变 化 : 


e BeautifulSoup(parseOnlyThese=...) -> 
BeautifulSoup(parse only-...) 

e BeautifulSoup(fromEncoding-...) -> 
BeautifulSoup(from encoding-...) 


为 了 适 配 Python3, 修 改 了 一 个 方法 名 : 

e Tag.has key() -> Tag.has attr() 

修改 了 一 个 属性 名 ,让 它 看 起 来 更 专业 点 : 

e Tag.isSelfClosing -> Tag.is empty element 


修改 了 下 面 3 个 属性 的 名 字 , 以 免 雨 Python 保留 字 冲 突 .这 些 变动 不 是 向 下 兼容 的 ,如 
果 在 BS3 中 使 用 了 这 些 属 性 ,那么 在 BS4 中 这 些 代码 无 法 执行 . 


e UnicodeDammit.Unicode -> UnicodeDammit.Unicode markup ' 
e. Tag .Next -> Tag .Next_element 
e Tag.previous -> Tag.previous element 


将 下 列 生成 器 按照 PEP8 标 准 重新 命名 ,并 转换 成 对 象 的 属性 : 


childGenerator() -> children 

nextGenerator() -> next elements 
nextSiblingGenerator() -> next siblings 
previousGenerator() -> previous elements 
previousSiblingGenerator() -> previous siblings 
recursiveChildGenerator() -> descendants 
parentGenerator() -> parents 


所 以 迁移 到 BS4 版 本 时 要 替换 这 些 代码 : 


for parent in tag.parentGenerator(): 


替换 为 : 


for parent in tag.parents: 


(两 种 调用 方法 现在 都 能 使 用 ) 


BS3 中 有 的 生成 器 循环 结束 后 会 返回 None 然后 结束 .这 是 个 bug. 新 版 生成 器 不 再 
返回 None 


BS4 中 增加 了 2 个 新 的 生成 器 , .strings 和 stripped strings. .strings 生成 器 返回 
NavigableString 对 象 ， .stripped_strings 方法 返回 去 除 前 后 空白 的 Python 的 
string 对 象 . 


XML 


BS4 中 移 除 了 解析 XML 的 BeautifulstoneSoup 类 .如 果 要 解析 一 段 XML 文 档 ,使 
用 BeautifulSoup 构造 方法 并 在 第 二 个 参数 设置 为 “xml”. 同 时 BeautifulSoup 
构造 方法 也 不 再 识别 isHTML 参数 . 


Beautiful Soup 处 理 XML 空 标签 的 方法 升级 了 .日 版 本 中 解析 XML 时 必须 指明 哪个 标 
签 是 空 标签 . 构造 方法 的 selfClosingTags 参数 已 经 不 再 使 用 .新 版 Beautiful 
Soup 将 所 有 空 标签 解析 为 空 元 素 , 如 果 向 空 元 素 中 添加 子 节点 ,那么 这 个 元 素 就 不 再 
是 空 元 素 了 . 


实体 


HTML 或 XML 实体 都 会 被 解析 成 Unicode 字 符 ,Beautiful Soup 3 版 本 中 有 很 多 处 理 实 
体 的 方法 ,在 新 版 中 都 被 移 除 了 ，BeautifulSoup 构造 方法 也 不 再 接受 
smartQuotesTo 或 convertEntities 参数 . 编码 自动 检测 方法 依然 有 
smart_quotes_to 参数 ,但 是 默认 会 将 引号 转换 成 Unicode. 内 容 配 置 项 

HTML ENTITIES , XML ENTITIES 和 XHTML ENTITIES 在 新 版 中 被 移 除 .因为 
它们 代表 的 特性 已 经 不 再 被 支持 . 


如 果 在 输出 文档 时 想 把 Unicode 字 符 转 换 成 HTML 实 体 ,而 不 是 输出 成 UTF-8 编 码 , 那 
就 需要 用 到 输出 格式 的 方法 . 
迁移 杂项 
Tag.string 属性 现在 是 一 个 递归 操作 .如 果 A 标 签 只 包含 了 一 个 B 标 签 ,那么 A 标 签 
的 .string 属 性 值 与 B 标 签 的 .string 属 性 值 相同 . 


多 和 值 属性 比如 class 属性 包含 一 个 他 们 的 值 的 列表 ,而 不 是 一 个 字符 串 .这 可 能 会 
影响 到 如 何 按照 CSS 类 名 哦 搜索 tag. 


如 果 使 用 find* 方法 时 同时 传 入 了 text 参数 和 name 参数 ee Soup 会 搜 
索 指 定 name 的 tag, 并 且 这 个 tag 的 Tag.string 属性 包含 text 参 数 的 内 容 .结果 中 不 会 包 
含 字 符 串 本 身 .日 版 本 中 Beautiful Soup 会 忽略 掉 tag 参 数 ,只 搜 索 text 参 数 . 


BeautifulSoup 构造 方法 不 再 支持 markupMassage 参数 .现在 由 解析 器 负责 文 
档 的 解析 正确 性 . 


很 少 被 用 到 的 几 个 解析 器 方法 在 新 版 中 被 移 除 ,比如 
ICantBelieveItsBeautifulSoup 和 BeautifulSOAP .现在 由 解析 器 完全 负责 
如 何 解释 模糊 不 清 的 文档 标记 . 


prettify() 方法 在 新 版 中 返回 Unicode 字 符 串 ,不 再 返回 字 节 流 . 
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BeautifulSoup 的 google 讨 论 组 不 是 很 活跃 ,可 能 是 因为 库 已 经 比较 完善 了 
吧 , 但 是 作者 还 是 会 很 热心 的 尽量 帮 你 解决 问题 的 . 


文档 被 解析 成 树 形 结构 ,所 以 下 一 步 解析 过 程 应 该 是 当前 节点 的 子 节点 


过 滤器 只 能 作为 搜索 文档 的 参数 ,或 者 说 应 该 叫 参数 类 型 更 为 贴切 ,原文 中 
用 了 filter 因此 翻译 为 过 滤器 


元 素 参数 ,HTML 文 档 中 的 一 个 tag 节 点 ,不 能 是 文本 节点 
采用 先 序 遍历 方式 


CSS 选 择 器 是 一 种 单独 的 文档 搜索 语法 , 参考 
http://www.w3school.com.cn/css/css selector type.asp 

原文 写 的 是 htmlblib, 译 者 觉得 这 是 原文 档 的 一 个 笔 误 

wrap 含有 包装 ,打包 的 意思 ,但 是 这 里 的 包装 不 是 在 外 部 包装 而 是 将 当前 
tag 的 内 部 内 容 包装 在 一 个 tag 里 .包装 原来 内 容 的 新 tag 依 然 在 执行 wrap() 
方法 的 tag 内 

文档 中 特殊 编码 字符 被 蔡 换 成 特殊 字符 (通常 是 其) 的 过 程 是 Beautful 
Soup 自 动 实现 的 ,如 果 想 要 多 种 编码 格式 的 文档 被 完全 转换 正确 ,那么 ,只 
好 ,预先 手动 处 理 , 统 一 编码 格式 


智能 引号 , 常 出 现在 microsoft 的 word 软 件 中 , 即 在 某 一 段落 中 按 引 号 出 现 
的 顺序 每 个 引号 都 被 自动 转换 为 左 引号 ,或 右 引 号 . 


